涵盖 OCR 与多轮对话:1.3B 端侧多模态模型 MiniCPM-V-4.6 正式发布;百万级智能体数据集 AgentTrove 开源!包含代码修复及数学求解

0 阅读3分钟

公共资源速递

4 个公共数据集:

* VisCoR-55K 视觉推理数据集

* AgentTrove 智能体交互轨迹数据集

* MemLens 多模态长上下文基准数据集

* LongBlocks 长上下文多语言问答数据集

2 个公共教程:

* Magic-resume:AI 驱动简历编辑器

* MiniCPM-V-4.6:端侧高效多模态视觉语言模型

访问官网立即使用: openbayes.com

公共数据集

1. VisCoR-55K 视觉推理数据集

VisCoR-55K 是一个高质量视觉推理数据集,包含约 55,000 个视觉推理样本,每个样本都利用对比样本生成相应的推理过程,涵盖通用、推理、数学、图表及 OCR 五大类别的高质量视觉推理数据集,旨在促进视觉语言模型在可信且稳健的视觉推理方面的研究。

在线使用:

go.openbayes.com/qB1mG

图片

数据集示例

2. AgentTrove 智能体交互轨迹数据集

AgentTrove 是由 OpenThoughts-Agent 团队发布的大规模开源智能体交互轨迹数据集。该数据集包含 1,696,847 行数据,源自 219 个数据集,涵盖代码修复、Shell 脚本编写、数学问题解决、编程竞赛及通用计算机使用等任务领域。

在线使用:

go.openbayes.com/OLvc5

3. MemLens 多模态长上下文基准数据集

MemLens 是一个用于评估视觉语言模型长程对话记忆的基准数据集。该数据集共包含 789 道题目,涵盖 5 种评估类型:信息提取、知识更新、时序推理、多会话推理与拒绝回答(Abstention**),并提供 4 个上下文长度配置(32K / 64K / 128K / 256K)。

在线使用:

go.openbayes.com/5qjwC

4. LongBlocks 长上下文多语言问答数据集

LongBlocks 是由里斯本大学等机构于 2026 年发布一个长上下文多语言合成数据集。该数据集包含约 19.4 万条长上下文问答示例,涵盖书籍、网页文本、Wiki 百科、arXiv 论文、编程代码及社区问答等长文档语料。

在线使用:

go.openbayes.com/2Rpap

公共教程

1. Magic-resume:AI 驱动简历编辑器

Magic Resume 是由 Siyue 于 2025 年开源的免费在线 AI 简历编辑器。目标是让用户无需复杂排版工具即可快速生成专业简历。它支持实时预览、自动保存、本地存储、自定义主题、暗色模式、响应式布局以及 PDF 导出,用户可以在编辑区填写个人信息、教育经历、项目经历、工作经历等模块,并即时查看最终简历效果。

在线运行:

go.openbayes.com/GeUIm

图片

项目示例

2. MiniCPM-V-4.6:端侧高效多模态视觉语言模型

MiniCPM-V-4.6 是由 OpenBMB** 团队与清华大学自然语言处理实验室于 2026 年联合发布的高效端侧多模态视觉语言模型。模型聚焦于图像理解、视频理解、视觉问答、OCR 与多轮对话场景。即使在计算资源受限的环境中,它也能高效处理图像问答、短视频摘要、UI 截图理解、文档 OCR 解析及多轮多模态交互等核心任务。

在线运行:

go.openbayes.com/IUhTv

图片

项目示例