公共资源速递
16 个公共数据集:
-
HBFMID 人体骨折图像数据集
-
SSTQA 半结构表格问答数据集
-
AnonyRAG 经典小说问答数据集
-
M3-Bench 长视频问答基准数据集
-
Lung Cancer Risk 肺癌风险数据集
……
7 个公共教程:
-
VoxCPM:无分词器的 TTS 技术
-
Qwen-Image-Edit-2509:多图像编辑器
-
Qwen3-Omni:突破模态边界的全能选手
-
Granite-docling-258M:轻量多模态文档处理模型
-
Qwen3-Omni-30B-A3B-Captioner:音频描述大模型
-
瞬悉 1.0:基于内生复杂性的类脑脉冲大模型
-
POINTS-Reader:无蒸馏端到端的轻量级文档视觉语言模型
公共数据集
HBFMID 数据集包含 1,539 张 X 光片和 MRI 图像,覆盖手肘、手指、前臂、肱骨、肩膀、大腿骨、胫骨、膝盖、髋骨、手腕、脊柱以及部分健康骨骼。所有图像经过自动方向校正、尺寸调整(640×640)和对比度增强处理。
在线使用:
数据集示例
SSTQA 数据集包含 102 张复杂的真实情境表格及其对应的 764 个问答对,覆盖 19 个具有代表性的真实应用场景。表格特征包括嵌套单元格、多级表头和不规则布局,充分反映了现实中的结构复杂性。问答对由自动生成与人工审核相结合构建,并按难度划分为简单、中等和困难三类,从直接检索到复杂推理均有覆盖。
在线使用:
AnonyRAG 数据集来源于四部经典小说:水浒传(Water Margin)、红楼梦(Dream of the Red Chamber)、白鲸记(Moby-Dick)、米德尔马契(Middlemarch),涵盖问答对和文本片段两类内容,由中文和英文两个版本组成。问答部分共约 1,397 条,包括普通问答、多选题和实体匿名恢复任务,问题分为简单与复杂两类。文本部分则提供了文字段落,作为检索语料支撑问答任务,适用于 RAG 模型评测、复杂多跳推理研究、知识问答系统开发,以及实体匿名化与恢复任务。
在线使用:
M3-Bench 数据集包含 1,020 段视频样本,每段样本包含字幕、中间产物、记忆图。 M3-Bench 以长视频开放式问答(VQA)为核心任务,每段视频配有一组开放式问题。
在线使用:
Lung Cancer Risk 数据集包含 50,000 条基于已知肺癌风险因素(例如生活习惯、环境暴露和家族史等)的患者资料,阳性病例约占 25%,反映了现实中肺癌的患病率。每条样本均由多个健康与行为特征构成,适用于肺癌风险建模、医学机器学习研究、健康预测系统开发与教学实验,尤其在分类建模和风险评估场景中具有良好的参考价值。
在线使用:
FinReflectKG 数据集基于 S&P 100 公司最新的年度 SEC 10-K 报告构建,包含大规模的三元组(triplets),并附带完整的文本上下文。适用于金融领域的实体识别、关系抽取、知识图谱构建、时序分析以及大型语言模型驱动的信息提取评估与下游金融智能应用开发。
在线使用:
Urban Issues 数据集中的图像按类别存储,每张图像均带有单一类别标签,且背景、光照、角度条件多样。数据采用 YOLO 格式进行标注与组织,适用于训练与评估图像分类模型与目标检测模型,尤其在智能城市基础设施监控、公共环境维护、路面状况检测和城市治理应用中具有价值。
在线使用:
数据集示例
IFEval-Inverse 数据集包含 1,012 条高质量中英双语问题样本,涵盖 8 种类型的反常指令挑战,包括问题纠错、故意文本错误、无注释代码、反常格式化、故意错误答案、诱导式提问、中途修改指令和反事实问答,并涉及 23 个不同领域。
在线使用:
WebExplorer-QA 数据集目前仅公开 100 条高质量样本供学术研究和社区测试使用,问答对需要模型执行多步检索/浏览网页操作,从多个网页中汇总信息来产生答案,适用于训练与评估网络代理或大语言模型在信息搜寻(information seeking)、多跳/复杂上下文推理(multi-step reasoning)、长上下文提示(long-horizon context)处理,以及工具调用(tool calling)与网页导航的能力。
在线使用:
10. Health & Lifestyle 健康生活方式数据集
Health & Lifestyle 数据集共包含 100,000 条个体记录,以 CSV 表格的形式提供,涵盖了从人口统计学特征到健康状态与生活习惯的多维度信息。数据不涉及任何真实个人信息,所有数值均为人工合成,同时在统计特性上保持与真实分布的一致性。
在线使用:
HTSC-2025 数据集共包含约 140 个材料,以 JSON/Parquet 格式存储,便于处理。该数据集突出常压条件、基于电子-声子耦合的可验证预测,并涵盖多种结构体系,适合用于机器学习模型的 Tc 预测评测、材料筛选与特征研究,是推动超导材料发现的重要基准资源。
在线使用:
12. Vegetable Identification 蔬菜图像识别数据集
Vegetable Identification 数据集包含茄子、豆类、秋葵、尖瓜、土豆和洋葱这 6 种蔬菜的图像,每个种类有 800 张图像,共 4,800 张图像,旨在增强机器学习和计算机视觉在蔬菜检测、分类和识别方面的功能。
在线使用:
数据集示例
13. Brain Tumor (MRI) Detection 脑肿瘤影像数据集
Brain Tumor (MRI) Detection 数据集由磁共振成像(MRI)图像构成,图像被划分为含有脑肿瘤的病例(Yes)和不含脑肿瘤的正常病例(No)两类。所有图像均来源于公开的医学影像资源库及允许教育和科研使用的开放研究出版物。
在线使用:
数据集示例
14. Sleep Disorder Diagnosis 睡眠障碍诊断数据集
Sleep Disorder Diagnosis 数据集包含 374 个个体样本,每个样本均记录了多维度的特征信息,最终以是否存在睡眠障碍及其类型作为目标标签。
在线使用:
15. Intel Image Classification 自然场景图像分类数据集
Intel Image Classification 数据集共包含约 25,000 张 150×150 像素的彩色图像,覆盖 6 个类别:建筑(buildings)、森林(forest)、冰川(glacier)、山脉(mountain)、海洋(sea)和 街道(street)。
在线使用:
数据集示例
16. Llama-Nemotron-Post-Training-Dataset 后训练数据集
Llama-Nemotron-Post-Training-Dataset 数据集整合了监督式微调(SFT)与强化学习(RL)阶段的数据。当前版本为 v1.1(较前版本新增约 220 万条数学样本与 50 万条代码推理样本),适用于训练 AI 智能体(Agent)、聊天机器人、RAG 系统及其他 AI 驱动应用。
在线使用:
公共教程
VoxCPM 在语音合成的自然度、音色相似度及韵律表现力方面达到了业界顶尖水平。VoxCPM 采用端到端的扩散自回归架构,直接从文本生成连续语音表示,突破了传统离散分词的局限。通过分层语言建模和有限状态量化约束,实现了语义与声学的隐式解耦,显著提升了语音的表达力和生成稳定性。VoxCPM 支持零样本声音克隆,仅需一段参考音频,能精准复刻说话者的音色、口音、情感语调等特征,生成高度逼真的语音。
在线运行:
效果展示
2. Qwen-Image-Edit-2509:多图像编辑器
Qwen-Image-Edit-2509 相比 8 月份开源的 Qwen-Image-Edit,单图编辑的一致性提升,同时新支持多图编辑功能。支持深度图、边缘图、关键点图,可控性更强,出图更自由。
在线运行:
项目示例
Qwen3-Omni 能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。
在线运行:
项目示例
4. Granite-docling-258M:轻量多模态文档处理模型
Granite-Docling-258M 模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。模型仅含 258M 参数,性能卓越,成本效益高,支持多语言(包括阿拉伯语、中文和日语)处理。模型使用 DocTags 格式精准描述文档结构,避免信息丢失。Granite-Docling-258M 能与 Docling 库无缝集成,提供强大的定制化和错误处理能力,适用企业级文档处理,是文档处理领域的强大工具。
在线运行:
项目示例
5. Qwen3-Omni-30B-A3B-Captioner:音频描述大模型
Qwen3-Omni-30B-A3B-Captioner 模型无需任何提示,自动为复杂语音、环境声、音乐、影视声效等生成精准、全面的描述,能识别说话人情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。
在线运行:
项目示例
瞬悉 1.0(SpikingBrain)受大脑机制启发,将混合高效注意力机制、MoE 模块和脉冲编码集成到其架构中,并由与开源模型生态系统兼容的通用转换管道支持。这使得能够使用不到 2% 的数据进行持续预训练,同时实现与主流开源模型相当的性能。SpikingBrain 在 4M-token 序列的 TTFT 中实现了超过 100 倍的加速,而脉冲编码在微观层面提供了超过 69% 的稀疏性。结合宏观层面的 MoE 稀疏性,这些进展为下一代神经形态芯片的设计提供了宝贵的指导。
在线运行:
项目示例
7. POINTS-Reader:无蒸馏端到端的轻量级文档视觉语言模型
POINTS-Reader 不追求参数规模,也不依赖教师模型「蒸馏」,而是通过一套两阶段自进化框架,在保持结构极简的同时,实现对中英文复杂文档(含表格、公式、多栏排版)的高精度端到端识别。
在线运行:
效果展示