MiniCPM-o 2.6 模型概述
MiniCPM-o 2.6 是 MiniCPM-o 系列中最新、功能最强大的多模态大模型,具有 8B 参数,专为视觉、语音和多模态实时流媒体任务设计。它在多项基准测试中表现优异,支持多种功能,包括实时语音对话、多模态直播、OCR 和高效推理。
主要功能与特点
1. 视觉能力
-
表现:在 OpenCompass 的 8 个基准测试中平均得分 70.2,超越 GPT-4o-202405、Gemini 1.5 Pro 和 Claude 3.5 Sonnet。
-
支持:单图像、多图像和视频理解,具有上下文学习能力。
-
OCR:能处理任意宽高比图像(最高 1.8M 像素),在 OCRBench 基准测试中表现领先。
2. 语音能力
-
双语支持:支持中英文实时语音对话,语音配置灵活。
-
性能:在 ASR 和 STT 翻译任务中优于 GPT-4o-realtime,具备情感、速度、风格控制及端到端语音克隆能力。
-
创新功能:支持角色扮演、语音模仿等高级功能。
3. 多模态直播
-
实时流处理:支持视频和音频流的实时处理,独立于用户查询。
-
基准表现:在 StreamingBench(实时视频理解、多模态上下文理解)中表现领先。
4. 高效性
-
推理效率:在处理 1.8M 像素图像时,仅生成 640 个 token,比大多数模型减少 75%。
-
设备支持:可在 iPad 等终端设备上高效运行。
5. 易用性
-
多种部署方式:
-
支持 llama.cpp,适用于本地 CPU 推理。
-
提供量化模型(int4 和 GGUF 格式)。
-
支持 vLLM 高吞吐量推理。
-
提供 Gradio 本地 WebUI 快速搭建和在线 Web Demo。
-
模型架构
- 端到端多模态架构:将不同模态的编码器/解码器连接并联合训练。
- 多模态流处理机制:采用时分复用(TDM)机制,将多模态流分解为小周期时间片内的序列信息。
- 语音建模设计:支持传统文本提示和音频提示,灵活配置语音风格,并支持端到端语音克隆。
使用方法
-
安装依赖
- 必需库包括
transformers==4.44.2、torch==2.3.1、Pillow==10.1.0等。
- 必需库包括
-
初始化模型
-
from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)
-
-
推理模式
-
聊天模式:支持单图像、多图像、视频输入。
-
实时流模式:分步处理视频和音频流,实现实时生成。
-
语音模式:支持语音模仿、语音聊天等任务。
-
基准测试
- 视觉理解:在 OpenCompass、OCRBench 等基准测试中表现领先。
- 音频理解:在 AudioEvals 中表现优异。
- 多模态流处理:在 StreamingBench 上实现最先进性能。
总结
MiniCPM-o 2.6 是一款功能强大的多模态模型,适用于视觉、语音和实时流媒体任务,表现优于大多数同类模型,且支持多种灵活的部署方式,适合学术研究和商业应用。
模型地址:huggingface.co/openbmb/Min…
欢迎关注我们,获取更多技术干货!