国产开源模型新突破:8B参数超越GPT-4V,还能在手机上跑

350 阅读3分钟

MiniCPM-o 2.6 模型概述

MiniCPM-o 2.6 是 MiniCPM-o 系列中最新、功能最强大的多模态大模型,具有 8B 参数,专为视觉、语音和多模态实时流媒体任务设计。它在多项基准测试中表现优异,支持多种功能,包括实时语音对话、多模态直播、OCR 和高效推理。


主要功能与特点

1. 视觉能力

  • 表现:在 OpenCompass 的 8 个基准测试中平均得分 70.2,超越 GPT-4o-202405、Gemini 1.5 Pro 和 Claude 3.5 Sonnet。

  • 支持:单图像、多图像和视频理解,具有上下文学习能力。

  • OCR:能处理任意宽高比图像(最高 1.8M 像素),在 OCRBench 基准测试中表现领先。

2. 语音能力

  • 双语支持:支持中英文实时语音对话,语音配置灵活。

  • 性能:在 ASR 和 STT 翻译任务中优于 GPT-4o-realtime,具备情感、速度、风格控制及端到端语音克隆能力。

  • 创新功能:支持角色扮演、语音模仿等高级功能。

3. 多模态直播

  • 实时流处理:支持视频和音频流的实时处理,独立于用户查询。

  • 基准表现:在 StreamingBench(实时视频理解、多模态上下文理解)中表现领先。

4. 高效性

  • 推理效率:在处理 1.8M 像素图像时,仅生成 640 个 token,比大多数模型减少 75%。

  • 设备支持:可在 iPad 等终端设备上高效运行。

5. 易用性

  • 多种部署方式

    • 支持 llama.cpp,适用于本地 CPU 推理。

    • 提供量化模型(int4 和 GGUF 格式)。

    • 支持 vLLM 高吞吐量推理。

    • 提供 Gradio 本地 WebUI 快速搭建和在线 Web Demo。


模型架构

  • 端到端多模态架构:将不同模态的编码器/解码器连接并联合训练。
  • 多模态流处理机制:采用时分复用(TDM)机制,将多模态流分解为小周期时间片内的序列信息。
  • 语音建模设计:支持传统文本提示和音频提示,灵活配置语音风格,并支持端到端语音克隆。


使用方法

  1. 安装依赖

    1. 必需库包括 transformers==4.44.2torch==2.3.1Pillow==10.1.0 等。
  2. 初始化模型

    1.    from transformers import AutoModel, AutoTokenizer
         model = AutoModel.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)
         tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)
      
  3. 推理模式

    1. 聊天模式:支持单图像、多图像、视频输入。

    2. 实时流模式:分步处理视频和音频流,实现实时生成。

    3. 语音模式:支持语音模仿、语音聊天等任务。


基准测试

  • 视觉理解:在 OpenCompass、OCRBench 等基准测试中表现领先。
  • 音频理解:在 AudioEvals 中表现优异。
  • 多模态流处理:在 StreamingBench 上实现最先进性能。


总结

MiniCPM-o 2.6 是一款功能强大的多模态模型,适用于视觉、语音和实时流媒体任务,表现优于大多数同类模型,且支持多种灵活的部署方式,适合学术研究和商业应用。

模型地址:huggingface.co/openbmb/Min…

欢迎关注我们,获取更多技术干货!