UI-TARS-1.5 实现多模态 GUI 自主操作；FrontierScience 构建专家级科学推理评测数据集

公共资源速递

5 个公共数据集：

Arena-Write 写作生成评测数据集
IF-Bench 红外图像理解基准数据集
Soul-Bench 音频驱动人体动画评测数据集
FrontierScience 推理科研任务评测数据集
VideoRewardBench 视频奖励模型评测数据集

4 个公共教程：

UI-TARS-1.5 多模态 Agent
GLM-ASR-Nano 智谱语音识别
SoulX-Podcast 面向多方言的播客级长文本语音生成
LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

访问官网立即使用：openbayes.com

公共数据集

Arena-Write 是一个面向超长文本生成模型评测的写作任务数据集，用于评估大语言模型在真实写作场景下的长篇内容生成能力。数据集包含 100 条真实用户写作任务，覆盖社交媒体、文章与报告等多种文本形式，输出长度从数百字到超过 2,000 字不等。除写作提示外，数据还提供多种基线模型的生成结果，适合用于超长文本写作能力评测与模型对比分析。

在线使用：

go.openbayes.com/dYpok

2. IF-Bench 红外图像理解基准数据集

IF-Bench 是一个面向红外图像理解的多模态评测基准，用于评估多模态大语言模型对红外图像语义信息的理解能力。数据集包含 499 张红外图像和 680 组视觉问答对，图像来自 23 个红外数据集，覆盖 10 个关键理解维度。所有问题提供中英文双语版本，适合用于红外图像语义理解与多模态推理评测。

在线使用：

go.openbayes.com/UD0RI

数据集分布

3. Soul-Bench 音频驱动人体动画评测数据集

Soul-Bench 是一个面向音频驱动人体动画任务的评测基准，用于评估模型在真实场景下的生成质量、一致性与泛化能力。数据集包含 226 条视频测试样本，覆盖多种主体类型、音频形式、分辨率与画面比例，适合用于音频驱动人体动画生成与跨模态一致性评测。

在线使用：

go.openbayes.com/8oxif

数据集示例

4. FrontierScience 推理科研任务评测数据集

FrontierScience 是一个面向专家级科学推理与科研任务的评测数据集，用于评估大模型在高难度科学问题求解中的能力。数据集包含封闭式推理的 Olympiad 子集和开放式科研推理的 Research 子集，分别对应可自动评测的精确推理任务与细粒度评分的科研子问题，适合用于科学推理与科研能力评测。

在线使用：

go.openbayes.com/oN4Zz

5. VideoRewardBench 视频奖励模型评测数据集

VideoRewardBench 是一个覆盖感知、知识、推理与安全等核心维度的视频理解评测基准，用于评估模型在视频生成结果偏好判断与质量评估中的能力。数据集包含 1,563 条带偏好标注的样本，每条样本由视频–文本提示、优选响应和拒绝响应组成，任务与视频时长分布较为均衡，适合用于多模态奖励模型训练与视频理解评测。

在线使用：

go.openbayes.com/8vqYN

公共教程

1. UI-TARS-1.5 多模态 Agent

UI-TARS-1.5 通过多模态感知模型理解桌面与浏览器界面，并结合规划与执行机制实现基于自然语言的自动化操作。系统无需预定义脚本即可解析用户意图、理解当前界面并动态生成操作流程，在复杂、多变的 GUI 场景中具备良好的泛化能力，适用于桌面智能助理与自动化交互任务。

在线运行：

go.openbayes.com/i5TaZ

2. GLM-ASR-Nano 智谱语音识别

GLM-ASR-Nano 通过高效的声学建模与优化训练策略，实现小模型规模下的高精度语音识别。系统在支持普通话与英语的同时，对多种中文方言及低语、微声等复杂声学场景表现出较强鲁棒性，在噪声环境下仍能稳定转写，适用于端侧部署、会议记录与隐私友好型语音识别应用。

在线运行：

go.openbayes.com/o12aO

数据集示例

3. SoulX-Podcast 面向多方言的播客级长文本语音生成

SoulX-Podcast 面向播客风格的长文本语音生成任务，支持多说话人、多轮对话与多方言语音合成。系统通过副语言控制机制提升语音的自然度与表现力，覆盖普通话、英语及多种中文方言，在长时对话与叙述场景中保持一致性与真实感，适用于播客生成、虚拟主持人与对话式语音内容创作。

在线运行：

go.openbayes.com/g8lnh

项目示例

4. LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

LongCat-Image-Edit 通过自然语言指令对已有图像进行精准、可控的视觉编辑，支持中文与英文双语输入。系统以原始图像作为强条件约束，在保持结构与语义一致性的同时，完成外观调整、物体替换、背景变化与风格迁移等操作，在编辑可控性与视觉真实感之间取得良好平衡，适用于通用图像编辑与创意生成场景。

在线运行：

go.openbayes.com/9vdu

项目示例