Ovis2:阿里放出多模态新王炸!6大模型尺寸通吃视频理解,数学推理能解微积分

489 阅读5分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚨 「当GPT-4o还在玩图文对话时,阿里的Ovis2已经能解微积分了!这个支持视频推理的开源怪兽,正在重定义多模态战场」

大家好,我是蚝油菜花。你可能已经见过无数个"多模态大模型",但今天要说的 Ovis2 绝对会让你瞳孔地震——

  • 🔥 全球首个实现《盗梦空间》级嵌套推理:视频关键帧分析→图表OCR→数学公式求解→生成报告
  • 🔥 1B小模型跑出34B的效果:结构化嵌入对齐技术让参数量直降97%
  • 🔥 企业级多语言OCR:从迪拜财报到东京地铁图,83种语言精准提取

这个由阿里巴巴国际团队打造的开源神器,正在掀起多模态应用的完美风暴。接下来我们将拆解其四大核心技术,手把手教你在本地部署视频理解AI体!

🚀 快速阅读

Ovis2 是一款新型多模态大语言模型,具有强大的视觉与文本对齐能力。

  1. 核心功能:支持文本、图像、视频等多种输入模态,提升复杂逻辑推理能力。
  2. 技术原理:通过结构化嵌入对齐实现视觉与文本的高效融合,并引入四阶段训练策略优化性能。

Ovis2 是什么

Ovis2 是阿里巴巴国际团队推出的一款新型多模态大语言模型,基于结构化嵌入对齐技术解决了视觉与文本模态间的差异问题。相比其前身 Ovis 系列,Ovis2 不仅继承了原有架构的优势,还进一步优化了小规模模型的能力密度。

Ovis2-Performance

通过指令微调和偏好学习,Ovis2 显著提升了思维链(CoT)推理能力,使其在数学推理和视频理解任务中表现尤为突出。此外,Ovis2 引入了对视频和多图像处理的支持,增强了多语言 OCR 能力,并推出了 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本,以满足多样化需求。

Ovis2 的开源为多模态大模型的研究和应用提供了全新的方向,尤其是在复杂场景下的视觉与语言任务中展现出卓越性能。

Ovis2 的主要功能

  • 多模态理解与生成:处理文本、图像、视频等多种输入模态,生成高质量的文本输出,支持复杂场景下的视觉和语言任务。
  • 强化推理能力:基于思维链(CoT)推理能力的提升,解决复杂的逻辑和数学问题,提供逐步推理的解决方案。
  • 视频和多图像处理:支持关键帧选择和多图像输入,处理跨帧的复杂视觉信息。
  • 多语言支持和 OCR 能力:从复杂视觉元素(如表格、图表)中提取结构化数据,支持多种语言的文本处理。
  • 小模型优化:通过优化训练策略,使小规模模型达到高能力密度,满足不同应用场景的需求。

Ovis2 的技术原理

Ovis-illustration

  • 结构化嵌入对齐:基于视觉 tokenizer 将图像分割成图像块(patch),提取特征后映射到“视觉单词”上,形成概率化的视觉 token,实现模态间的结构化对齐。
  • 四阶段训练策略
    1. 冻结 LLM,训练视觉模块,学习视觉特征到嵌入的转化。
    2. 增强高分辨率图像理解和多语言 OCR 能力。
    3. 使视觉嵌入对齐 LLM 的对话格式。
    4. 提升模型对用户指令的遵循能力和输出质量。
  • 视频理解增强:使用 MDP3 算法选择关键帧,提升视频理解能力。
  • 基于 Transformer 架构:结合强大的视觉编码器(如 ViT)和语言模型(如 Qwen),实现高效的多模态融合和生成。

如何运行 Ovis2

1. 安装环境

Ovis2 支持 Python 3.10 和 PyTorch 2.4.0。以下是安装步骤:

git clone git@github.com:AIDC-AI/Ovis.git
conda create -n ovis python=3.10 -y
conda activate ovis
cd Ovis
pip install -r requirements.txt
pip install -e .

2. 推理示例

以下代码展示了如何使用 Ovis2 处理图像和文本输入:

from PIL import Image
from ovis.serve.runner import RunnerArguments, OvisRunner

# 加载图像和文本
image = Image.open('IMAGE_PATH')
text = 'PROMPT'

# 初始化模型
runner_args = RunnerArguments(model_path='MODEL_PATH')
runner = OvisRunner(runner_args)

# 执行推理
generation = runner.run([image, text])
print(generation)

3. 启动 Web UI

如果需要通过网页界面访问 Ovis2,可以运行以下命令:

python ovis/serve/server.py --model_path MODEL_PATH --port PORT

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦