OpenBayes 一周速览丨MiniCPM-V4.0图像理解能力突破,手机端也可轻松部署;含超20K样本,MathCaptcha10K助力训练验证码识别模型

22 阅读4分钟

公共资源速递

5 个公共数据集:

  • HelpSteer3 人类偏好数据集 

  • A-WetDri 恶劣天气驾驶数据集 

  • NonverbalTTS 非语言音频生成数据集

  • STRIDE-QA-Mini 自动驾驶问答数据集 

  • MathCaptcha10k 算数验证码图像数据集

5 个公共教程:

  • dots.ocr:多语言文档解析模型

  • MiniCPM-V4.0:极致高效的端侧大模型

  • llama.cpp+Open-WebUI 部署 gpt-oss-20b

  • llama.cpp+Open-WebUI 部署 gpt-oss-120b

  • vLLM+Open-WebUl 部署 Phi-4-mini-flash-reasoning

访问官网立即使用:openbayes.com

公共数据集

  1. HelpSteer3 人类偏好数据集

HelpSteer3 数据集包含 40,476 个偏好样本,每个样本包含领域、语言、上下文、2 个回复、以及 2 个回复之间的总体偏好评分和最多 3 位标注者的个人偏好评分,其包含了多语言数据(中文、韩文、法语、西班牙文、日本语、德语、俄语、葡萄牙语、意大利语、越南语、荷兰语)。

  • 在线使用:

go.openbayes.com/Icu7H

  1. A-WetDri 恶劣天气驾驶数据集

A-WetDri 数据集包含了 42,390 个样本,其中 19,344 个样本为模拟数据、23,046 个样本为现实世界数据,数据集涵盖 4 种环境场景(雨、雾、夜晚、雪、晴朗天气)、不同的物体类别(汽车、卡车汽车、自行车、摩托车、步行者、交通标志交通灯)。

  • 在线使用:

go.openbayes.com/NBBUi

数据集示例

  1. NonverbalTTS 非语言音频生成数据集

NonverbalTTS 数据集包含 17 小时的高质量语音数据,数据源自 2,296 名参与者(60% 男性,40% 女性),涵盖 10 种非语言语音类型(呼吸、笑声、叹息、打喷嚏、咳嗽、清嗓子、呻吟、咕哝、打鼾、吸气)、8 种情绪类别(愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶、其他)。

  • 在线使用:

go.openbayes.com/4vFLX

  1. STRIDE-QA-Mini 自动驾驶问答数据集

STRIDE-QA-Mini 数据集包含 103,220 个问答对及 5,539 张图像样本。数据源自东京收集的真实行车记录仪镜头(城市、郊区、高速公路、各种天气)。

  • 在线使用:

go.openbayes.com/XbJzl

  1. MathCaptcha10k 算数验证码图像数据集

MathCaptcha10K 数据集包含 10,000 个带标签样本和 11,766 个未标注文件样本,分辨率为 200×70 像素。每个带标签样本包含算数验证码图像,图像中的精确字符及其整数答案。

  • 在线使用:

go.openbayes.com/Pd2Gk

数据集示例

公共教程

1.dots.ocr:多语言文档解析模型

dots.ocr 基于 17 亿参数的视觉语言模型(VLM),能统一进行布局检测和内容识别,保持良好的阅读顺序。模型规模虽小,但性能达到业界领先水平(SOTA),在 OmniDocBench 等基准测试中表现优异,公式识别效果能与 Doubao-1.5 和 gemini2.5-pro 等更大规模模型相媲美,在小语种解析方面优势显著。该模型提供了简洁高效的架构,任务切换仅需更改输入提示词,推理速度快,适用多种文档解析场景。

  • 在线运行:

go.openbayes.com/V1zz3

项目示例

2. MiniCPM-V4.0:极致高效的端侧大模型

MiniCPM-V4.0 基于 SigLIP2-400M 和 MiniCPM4-3B 构建,总参数量为 4.1B。它继承了 MiniCPM-V2.6 强大的单图、多图和视频理解性能,效率大幅提升。面壁智能还同步开源了适用于 iPhone 和 iPad 的 iOS 应用。MiniCPM-V4.0 在 OpenCompass 评测中图像理解能力超越了 GPT-4.1-mini-20250414、Qwen2.5-VL-3B-Instruct 和 InternVL2.5-8B。

  • 在线运行:

go.openbayes.com/uxBrY

项目示例

  1. llama.cpp+Open-WebUI 部署 gpt-oss-20b

gpt-oss-20b 参数约为 21B,运行时仅需 16GB 内存,在常见基准测试里,其表现与 o3-mini 相当,这种轻量化设计使得它在边缘设备上也能轻松部署,无论是在本地推理,还是在对基础设施要求严苛的快速迭代场景中,都能发挥出色的效能。

  • 在线运行:

go.openbayes.com/VqXzq

项目示例

  1. llama.cpp+Open-WebUI 部署 gpt-oss-120b

gpt-oss-120b 拥有约 117B 参数,在核心推理基准测试中,其推理性能与 OpenAI 自家的 o4-mini 不相上下,且每个 token 仅启用 51 亿参数,便能在单个 80GB GPU 上实现高效运行,这一成果极大地优化了计算资源的利用效率。

  • 在线运行:

go.openbayes.com/A3lCf

项目示例

5. vLLM+Open WebUl 部署 Phi-4-mini-flash-reasoning

Phi-4-mini-flash-reasoning 基于合成数据构建,专注于高质量、密集推理数据,并进一步微调以获得更高级的数学推理能力。该模型属于 Phi-4 模型系列,支持 64K token 上下文长度,采用解码器-混合-解码器架构,结合注意力机制和状态空间模型(SSM),在推理效率方面表现出色。

  • 在线运行:

go.openbayes.com/kURAu

项目示例