UI-TARS-1.5 实现多模态 GUI 自主操作;FrontierScience 构建专家级科学推理评测数据集

36 阅读5分钟

公共资源速递

5 个公共数据集:

  • Arena-Write 写作生成评测数据集

  • IF-Bench 红外图像理解基准数据集

  • Soul-Bench 音频驱动人体动画评测数据集

  • FrontierScience 推理科研任务评测数据集

  • VideoRewardBench 视频奖励模型评测数据集

4 个公共教程:

  • UI-TARS-1.5 多模态 Agent

  • GLM-ASR-Nano 智谱语音识别

  • SoulX-Podcast 面向多方言的播客级长文本语音生成

  • LongCat-Image-Edit-Interface:双语文本驱动图像编辑系统

访问官网立即使用:openbayes.com

公共数据集

1. Arena-Write 写作生成评测数据集

Arena-Write 是一个面向超长文本生成模型评测的写作任务数据集,用于评估大语言模型在真实写作场景下的长篇内容生成能力。数据集包含 100 条真实用户写作任务,覆盖社交媒体、文章与报告等多种文本形式,输出长度从数百字到超过 2,000 字不等。除写作提示外,数据还提供多种基线模型的生成结果,适合用于超长文本写作能力评测与模型对比分析。

在线使用:

go.openbayes.com/dYpok

2. IF-Bench 红外图像理解基准数据集

IF-Bench 是一个面向红外图像理解的多模态评测基准,用于评估多模态大语言模型对红外图像语义信息的理解能力。数据集包含 499 张红外图像和 680 组视觉问答对,图像来自 23 个红外数据集,覆盖 10 个关键理解维度。所有问题提供中英文双语版本,适合用于红外图像语义理解与多模态推理评测。

在线使用:

go.openbayes.com/UD0RI

数据集分布

3. Soul-Bench 音频驱动人体动画评测数据集

Soul-Bench 是一个面向音频驱动人体动画任务的评测基准,用于评估模型在真实场景下的生成质量、一致性与泛化能力。数据集包含 226 条视频测试样本,覆盖多种主体类型、音频形式、分辨率与画面比例,适合用于音频驱动人体动画生成与跨模态一致性评测。

在线使用:

go.openbayes.com/8oxif

数据集示例

4. FrontierScience 推理科研任务评测数据集

FrontierScience 是一个面向专家级科学推理与科研任务的评测数据集,用于评估大模型在高难度科学问题求解中的能力。数据集包含封闭式推理的 Olympiad 子集和开放式科研推理的 Research 子集,分别对应可自动评测的精确推理任务与细粒度评分的科研子问题,适合用于科学推理与科研能力评测。

在线使用:

go.openbayes.com/oN4Zz

5. VideoRewardBench 视频奖励模型评测数据集

VideoRewardBench 是一个覆盖感知、知识、推理与安全等核心维度的视频理解评测基准,用于评估模型在视频生成结果偏好判断与质量评估中的能力。数据集包含 1,563 条带偏好标注的样本,每条样本由视频–文本提示、优选响应和拒绝响应组成,任务与视频时长分布较为均衡,适合用于多模态奖励模型训练与视频理解评测。

在线使用:

go.openbayes.com/8vqYN

公共教程

1. UI-TARS-1.5 多模态 Agent

UI-TARS-1.5 通过多模态感知模型理解桌面与浏览器界面,并结合规划与执行机制实现基于自然语言的自动化操作。系统无需预定义脚本即可解析用户意图、理解当前界面并动态生成操作流程,在复杂、多变的 GUI 场景中具备良好的泛化能力,适用于桌面智能助理与自动化交互任务。

在线运行:

go.openbayes.com/i5TaZ

2. GLM-ASR-Nano 智谱语音识别

GLM-ASR-Nano 通过高效的声学建模与优化训练策略,实现小模型规模下的高精度语音识别。系统在支持普通话与英语的同时,对多种中文方言及低语、微声等复杂声学场景表现出较强鲁棒性,在噪声环境下仍能稳定转写,适用于端侧部署、会议记录与隐私友好型语音识别应用。

在线运行:

go.openbayes.com/o12aO

数据集示例

3. SoulX-Podcast 面向多方言的播客级长文本语音生成

SoulX-Podcast 面向播客风格的长文本语音生成任务,支持多说话人、多轮对话与多方言语音合成。系统通过副语言控制机制提升语音的自然度与表现力,覆盖普通话、英语及多种中文方言,在长时对话与叙述场景中保持一致性与真实感,适用于播客生成、虚拟主持人与对话式语音内容创作。

在线运行:

go.openbayes.com/g8lnh

项目示例

4. LongCat-Image-Edit-Interface:双语文本驱动图像编辑系统

LongCat-Image-Edit 通过自然语言指令对已有图像进行精准、可控的视觉编辑,支持中文与英文双语输入。系统以原始图像作为强条件约束,在保持结构与语义一致性的同时,完成外观调整、物体替换、背景变化与风格迁移等操作,在编辑可控性与视觉真实感之间取得良好平衡,适用于通用图像编辑与创意生成场景。

在线运行:

go.openbayes.com/9vdu

项目示例