OpenBayes 一周速览丨Qwen家族新秀，Qwen-Image-Edit 实现图片文字精准编辑；Nemotron 数据集含超 2K 万条样本，涵盖多领域

公共资源速递 This Weekly Snapshots ！

7 个公共数据集：

Nemotron 多领域推理数据集
Trendyol 安全指令调优数据集
InteriorGS 3D 室内场景数据集
CSEMOTIONS 情绪音频数据集
LongText-Bench 文本理解基准数据集
Document Haystack 多模态文档基准数据集
CognitiveKernel-Pro-Query 文本生成基准数据集

5 个公共教程：

一键部署 Qwen3-4B-2507
vLLM+OpenWebUl 部署 Jan-v1-4B
乳腺癌诊断数据集机器学习分类预测教程
探索性数据分析 | XGBoost 的 SHAP 值解析
Qwen-lmage-Edit：全能图像编辑模型 Demo

访问官网立即使用：openbayes.com

公共数据集

Nemotron 多领域推理数据集

Nemotron 数据集包含 2,566 万条样本，数据涵盖对话（74.6 万）、代码（189.6 万）、数学（204.4 万）、STEM（2,066 万）及工具调用（31 万）五大类别。

在线使用：

go.openbayes.com/PUwzE

Trendyol 安全指令调优数据集

Trendyol 数据集包含 53,202 个指令调优示例，涵盖 200 多个网络安全专业领域，包括云原生威胁、AI/ML 安全、量子计算风险、高级事件响应技术等多种现代安全挑战，为防御性安全 AI 模型的训练提供了高质量语料。

在线使用：

go.openbayes.com/Q2Tj2

InteriorGS 3D 室内场景数据集

InteriorGS 数据集提供高质量的 3D 高斯散射（3DGS）表示，以及实例级语义边界框和指示代理可访问区域的占用图。数据包含 1,000 个高质量室内场景及其对应的平面图，涵盖住宅、便利店、婚宴厅、博物馆等 80 余种环境类型。该数据集还包括超过 554,000 个物体实例，覆盖 755 个物体类别。

在线使用：

go.openbayes.com/FtZZG

数据集示例

CSEMOTIONS 情绪音频数据集

CSEMOTIONS 数据集包含约 10 小时的高质量音频数据，涵盖 10 位专业配音演员（5 位男性、5 位女性）在中性、快乐、愤怒、悲伤、惊讶、厌恶、恐惧七种情绪类别下的音频，每种情绪均包含 500-700 句中文文本的录音。

在线使用

go.openbayes.com/kok5O

LongText-Bench 文本理解基准数据集

LongText-Bench 数据集包含 160 个用于评估长文本渲染任务的提示语，涵盖 8 种不同场景（路牌、带标签的物体、印刷材料、网页、幻灯片、海报、标题和对话）。

在线使用：

go.openbayes.com/uvc86

Document Haystack 多模态文档基准数据集

Document Haystack 数据集包含 400 份文档变体和 8,250 个检索问题，涵盖了 5-200 页篇幅的真实文档，数据形式包括原始 PDF、200 DPI 分页图像和纯文本解析文件，适用于问答（Question-Answering）和视觉问答（Visual Question-Answering）等任务。

在线使用：

go.openbayes.com/Tclcm

CognitiveKernel-Pro-Query 文本生成基准数据集

CognitiveKernel-Pro-Query 数据集包含超过 10,000 条长文本，涵盖新闻文章、技术文档、书籍等应用场景，旨在评估模型在处理这些长文本时的表现。

在线使用：

go.openbayes.com/TAEUB

公共教程

一键部署 Qwen3-4B-2507

Qwen3-4B-2507 包含 Qwen3-4B-Thinking-2507 和 Qwen3-4B-Instruct-2507 两个模型。Qwen3-4B-Thinking-2507 在复杂问题推理能力、数学能力、代码能力以及多轮函数调用能力上的表现大幅领先 Qwen3 同尺寸小模型。

在非推理领域，Qwen3-4B-Instruct-2507 在知识、推理、编程、对齐以及 agengt 能力上全面超越了闭源的小尺寸模型 GPT-4.1-nano，且与中等规模的 Qwen3-30B-A3B（non-thinking）性能接近。该模型覆盖了更多语言的长尾知识，在主观和开放性任务中与人类偏好的对齐性增强，能够提供更符合需求的答复。

在线运行：

go.openbayes.com/7IBmB

项目示例

2. vLLM+OpenWebUl 部署 Jan-v1-4B

Jan-v1-4B 以 Qwen3-4B-Thinking-2507 为基础继续微调与扩展，在 SimpleQA 基准上取得 91.1% 的准确率，显示出通过模型扩展与调优带来的明显性能提。官方文档亦指出其在该基准上可超过部分更大规模模型。

在线运行：

go.openbayes.com/mbbAx

项目示例

乳腺癌诊断数据集机器学习分类预测教程

本教程主要基于威斯康辛乳腺癌诊断数据集（WDBC），使用 R 语言（统计计算与机器学习平台）及关键库演示二分类问题的机器学习全流程。学习目标为掌握医学数据集的标准化预处理流程；明确乳腺癌诊断的关键特征及其临床意义等。

在线运行：

go.openbayes.com/jUtl6

探索性数据分析 | XGBoost 的 SHAP 值解析

本教程围绕「预测最优肥料」的多分类赛题展开，完整呈现了从数据探索到模型训练、再到可解释性分析的端到端流程。数据集属于多分类任务，包含多种作物与土壤类型的环境与养分特征记录（如温度、湿度、含水量、氮磷钾含量等），主要用于根据给定条件预测最适合的肥料类型（Top-3 推荐），适用于农业决策支持、可解释机器学习以及结构化数据建模等研究场景。

在线运行：

go.openbayes.com/OLld8

5. Qwen-lmage-Edit：全能图像编辑模型 Demo

Qwen-Image-Edit 兼具语义与外观的双重编辑能力，能进行低层次的视觉外观编辑（如添加、删除、修改元素）和高层次的视觉语义编辑（如 IP 创作、物体旋转、风格迁移等）。模型支持中英文双语文字的精准编辑，支持在保留原有字体、字号和风格的前提下修改图片中的文字。

在线运行：

go.openbayes.com/JTJVV

项目示例