公共资源速递 This Weekly Snapshots !
7 个公共数据集:
-
Nemotron 多领域推理数据集
-
Trendyol 安全指令调优数据集
-
InteriorGS 3D 室内场景数据集
-
CSEMOTIONS 情绪音频数据集
-
LongText-Bench 文本理解基准数据集
-
Document Haystack 多模态文档基准数据集
-
CognitiveKernel-Pro-Query 文本生成基准数据集
5 个公共教程:
-
一键部署 Qwen3-4B-2507
-
vLLM+OpenWebUl 部署 Jan-v1-4B
-
乳腺癌诊断数据集机器学习分类预测教程
-
探索性数据分析 | XGBoost 的 SHAP 值解析
-
Qwen-lmage-Edit:全能图像编辑模型 Demo
访问官网立即使用:openbayes.com
公共数据集
- Nemotron 多领域推理数据集
Nemotron 数据集包含 2,566 万条样本,数据涵盖对话(74.6 万)、代码(189.6 万)、数学(204.4 万)、STEM(2,066 万)及工具调用(31 万)五大类别。
- 在线使用:
- Trendyol 安全指令调优数据集
Trendyol 数据集包含 53,202 个指令调优示例,涵盖 200 多个网络安全专业领域,包括云原生威胁、AI/ML 安全、量子计算风险、高级事件响应技术等多种现代安全挑战,为防御性安全 AI 模型的训练提供了高质量语料。
- 在线使用:
- InteriorGS 3D 室内场景数据集
InteriorGS 数据集提供高质量的 3D 高斯散射(3DGS)表示,以及实例级语义边界框和指示代理可访问区域的占用图。数据包含 1,000 个高质量室内场景及其对应的平面图,涵盖住宅、便利店、婚宴厅、博物馆等 80 余种环境类型。该数据集还包括超过 554,000 个物体实例,覆盖 755 个物体类别。
- 在线使用:
数据集示例
- CSEMOTIONS 情绪音频数据集
CSEMOTIONS 数据集包含约 10 小时的高质量音频数据,涵盖 10 位专业配音演员(5 位男性、5 位女性)在中性、快乐、愤怒、悲伤、惊讶、厌恶、恐惧七种情绪类别下的音频,每种情绪均包含 500-700 句中文文本的录音。
- 在线使用
- LongText-Bench 文本理解基准数据集
LongText-Bench 数据集包含 160 个用于评估长文本渲染任务的提示语,涵盖 8 种不同场景(路牌、带标签的物体、印刷材料、网页、幻灯片、海报、标题和对话)。
- 在线使用:
- Document Haystack 多模态文档基准数据集
Document Haystack 数据集包含 400 份文档变体和 8,250 个检索问题,涵盖了 5-200 页篇幅的真实文档,数据形式包括原始 PDF、200 DPI 分页图像和纯文本解析文件,适用于问答(Question-Answering)和视觉问答(Visual Question-Answering)等任务。
- 在线使用:
- CognitiveKernel-Pro-Query 文本生成基准数据集
CognitiveKernel-Pro-Query 数据集包含超过 10,000 条长文本,涵盖新闻文章、技术文档、书籍等应用场景,旨在评估模型在处理这些长文本时的表现。
- 在线使用:
公共教程
- 一键部署 Qwen3-4B-2507
Qwen3-4B-2507 包含 Qwen3-4B-Thinking-2507 和 Qwen3-4B-Instruct-2507 两个模型。Qwen3-4B-Thinking-2507 在复杂问题推理能力、数学能力、代码能力以及多轮函数调用能力上的表现大幅领先 Qwen3 同尺寸小模型。
在非推理领域,Qwen3-4B-Instruct-2507 在知识、推理、编程、对齐以及 agengt 能力上全面超越了闭源的小尺寸模型 GPT-4.1-nano,且与中等规模的 Qwen3-30B-A3B(non-thinking)性能接近。该模型覆盖了更多语言的长尾知识,在主观和开放性任务中与人类偏好的对齐性增强,能够提供更符合需求的答复。
- 在线运行:
项目示例
2. vLLM+OpenWebUl 部署 Jan-v1-4B
Jan-v1-4B 以 Qwen3-4B-Thinking-2507 为基础继续微调与扩展,在 SimpleQA 基准上取得 91.1% 的准确率,显示出通过模型扩展与调优带来的明显性能提。官方文档亦指出其在该基准上可超过部分更大规模模型。
- 在线运行:
项目示例
- 乳腺癌诊断数据集机器学习分类预测教程
本教程主要基于威斯康辛乳腺癌诊断数据集(WDBC),使用 R 语言(统计计算与机器学习平台)及关键库演示二分类问题的机器学习全流程。学习目标为掌握医学数据集的标准化预处理流程;明确乳腺癌诊断的关键特征及其临床意义等。
- 在线运行:
- 探索性数据分析 | XGBoost 的 SHAP 值解析
本教程围绕「预测最优肥料」的多分类赛题展开,完整呈现了从数据探索到模型训练、再到可解释性分析的端到端流程。数据集属于多分类任务,包含多种作物与土壤类型的环境与养分特征记录(如温度、湿度、含水量、氮磷钾含量等),主要用于根据给定条件预测最适合的肥料类型(Top-3 推荐),适用于农业决策支持、可解释机器学习以及结构化数据建模等研究场景。
- 在线运行:
5. Qwen-lmage-Edit:全能图像编辑模型 Demo
Qwen-Image-Edit 兼具语义与外观的双重编辑能力,能进行低层次的视觉外观编辑(如添加、删除、修改元素)和高层次的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等)。模型支持中英文双语文字的精准编辑,支持在保留原有字体、字号和风格的前提下修改图片中的文字。
- 在线运行:
项目示例