公共资源速递
5 个公共数据集:
-
Arena-Write 写作生成评测数据集
-
IF-Bench 红外图像理解基准数据集
-
Soul-Bench 音频驱动人体动画评测数据集
-
FrontierScience 推理科研任务评测数据集
-
VideoRewardBench 视频奖励模型评测数据集
4 个公共教程:
-
UI-TARS-1.5 多模态 Agent
-
GLM-ASR-Nano 智谱语音识别
-
SoulX-Podcast 面向多方言的播客级长文本语音生成
-
LongCat-Image-Edit-Interface:双语文本驱动图像编辑系统
访问官网立即使用:openbayes.com
公共数据集
Arena-Write 是一个面向超长文本生成模型评测的写作任务数据集,用于评估大语言模型在真实写作场景下的长篇内容生成能力。数据集包含 100 条真实用户写作任务,覆盖社交媒体、文章与报告等多种文本形式,输出长度从数百字到超过 2,000 字不等。除写作提示外,数据还提供多种基线模型的生成结果,适合用于超长文本写作能力评测与模型对比分析。
在线使用:
IF-Bench 是一个面向红外图像理解的多模态评测基准,用于评估多模态大语言模型对红外图像语义信息的理解能力。数据集包含 499 张红外图像和 680 组视觉问答对,图像来自 23 个红外数据集,覆盖 10 个关键理解维度。所有问题提供中英文双语版本,适合用于红外图像语义理解与多模态推理评测。
在线使用:
数据集分布
Soul-Bench 是一个面向音频驱动人体动画任务的评测基准,用于评估模型在真实场景下的生成质量、一致性与泛化能力。数据集包含 226 条视频测试样本,覆盖多种主体类型、音频形式、分辨率与画面比例,适合用于音频驱动人体动画生成与跨模态一致性评测。
在线使用:
数据集示例
4. FrontierScience 推理科研任务评测数据集
FrontierScience 是一个面向专家级科学推理与科研任务的评测数据集,用于评估大模型在高难度科学问题求解中的能力。数据集包含封闭式推理的 Olympiad 子集和开放式科研推理的 Research 子集,分别对应可自动评测的精确推理任务与细粒度评分的科研子问题,适合用于科学推理与科研能力评测。
在线使用:
5. VideoRewardBench 视频奖励模型评测数据集
VideoRewardBench 是一个覆盖感知、知识、推理与安全等核心维度的视频理解评测基准,用于评估模型在视频生成结果偏好判断与质量评估中的能力。数据集包含 1,563 条带偏好标注的样本,每条样本由视频–文本提示、优选响应和拒绝响应组成,任务与视频时长分布较为均衡,适合用于多模态奖励模型训练与视频理解评测。
在线使用:
公共教程
UI-TARS-1.5 通过多模态感知模型理解桌面与浏览器界面,并结合规划与执行机制实现基于自然语言的自动化操作。系统无需预定义脚本即可解析用户意图、理解当前界面并动态生成操作流程,在复杂、多变的 GUI 场景中具备良好的泛化能力,适用于桌面智能助理与自动化交互任务。
在线运行:
GLM-ASR-Nano 通过高效的声学建模与优化训练策略,实现小模型规模下的高精度语音识别。系统在支持普通话与英语的同时,对多种中文方言及低语、微声等复杂声学场景表现出较强鲁棒性,在噪声环境下仍能稳定转写,适用于端侧部署、会议记录与隐私友好型语音识别应用。
在线运行:
数据集示例
3. SoulX-Podcast 面向多方言的播客级长文本语音生成
SoulX-Podcast 面向播客风格的长文本语音生成任务,支持多说话人、多轮对话与多方言语音合成。系统通过副语言控制机制提升语音的自然度与表现力,覆盖普通话、英语及多种中文方言,在长时对话与叙述场景中保持一致性与真实感,适用于播客生成、虚拟主持人与对话式语音内容创作。
在线运行:
项目示例
4. LongCat-Image-Edit-Interface:双语文本驱动图像编辑系统
LongCat-Image-Edit 通过自然语言指令对已有图像进行精准、可控的视觉编辑,支持中文与英文双语输入。系统以原始图像作为强条件约束,在保持结构与语义一致性的同时,完成外观调整、物体替换、背景变化与风格迁移等操作,在编辑可控性与视觉真实感之间取得良好平衡,适用于通用图像编辑与创意生成场景。
在线运行:
项目示例