国产开源模型新突破：8B参数超越GPT-4V，还能在手机上跑

2025-01-17 408 阅读3分钟

MiniCPM-o 2.6 模型概述

MiniCPM-o 2.6 是 MiniCPM-o 系列中最新、功能最强大的多模态大模型，具有 8B 参数，专为视觉、语音和多模态实时流媒体任务设计。它在多项基准测试中表现优异，支持多种功能，包括实时语音对话、多模态直播、OCR 和高效推理。

主要功能与特点

1. 视觉能力

表现：在 OpenCompass 的 8 个基准测试中平均得分 70.2，超越 GPT-4o-202405、Gemini 1.5 Pro 和 Claude 3.5 Sonnet。
支持：单图像、多图像和视频理解，具有上下文学习能力。
OCR：能处理任意宽高比图像（最高 1.8M 像素），在 OCRBench 基准测试中表现领先。

2. 语音能力

双语支持：支持中英文实时语音对话，语音配置灵活。
性能：在 ASR 和 STT 翻译任务中优于 GPT-4o-realtime，具备情感、速度、风格控制及端到端语音克隆能力。
创新功能：支持角色扮演、语音模仿等高级功能。

3. 多模态直播

实时流处理：支持视频和音频流的实时处理，独立于用户查询。
基准表现：在 StreamingBench（实时视频理解、多模态上下文理解）中表现领先。

4. 高效性

推理效率：在处理 1.8M 像素图像时，仅生成 640 个 token，比大多数模型减少 75%。
设备支持：可在 iPad 等终端设备上高效运行。

5. 易用性

多种部署方式：
- 支持 llama.cpp，适用于本地 CPU 推理。
- 提供量化模型（int4 和 GGUF 格式）。
- 支持 vLLM 高吞吐量推理。
- 提供 Gradio 本地 WebUI 快速搭建和在线 Web Demo。

模型架构

端到端多模态架构：将不同模态的编码器/解码器连接并联合训练。
多模态流处理机制：采用时分复用（TDM）机制，将多模态流分解为小周期时间片内的序列信息。
语音建模设计：支持传统文本提示和音频提示，灵活配置语音风格，并支持端到端语音克隆。

使用方法

安装依赖
1. 必需库包括 transformers==4.44.2、torch==2.3.1、Pillow==10.1.0 等。

初始化模型

   from transformers import AutoModel, AutoTokenizer
   model = AutoModel.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)
   tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)

推理模式
1. 聊天模式：支持单图像、多图像、视频输入。
2. 实时流模式：分步处理视频和音频流，实现实时生成。
3. 语音模式：支持语音模仿、语音聊天等任务。

基准测试

视觉理解：在 OpenCompass、OCRBench 等基准测试中表现领先。
音频理解：在 AudioEvals 中表现优异。
多模态流处理：在 StreamingBench 上实现最先进性能。

总结

MiniCPM-o 2.6 是一款功能强大的多模态模型，适用于视觉、语音和实时流媒体任务，表现优于大多数同类模型，且支持多种灵活的部署方式，适合学术研究和商业应用。

模型地址：huggingface.co/openbmb/Min…

欢迎关注我们，获取更多技术干货！