Ovis2：阿里放出多模态新王炸！6大模型尺寸通吃视频理解，数学推理能解微积分Ovis2 是阿里巴巴国际团队推出的多模态

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🚨 「当GPT-4o还在玩图文对话时，阿里的Ovis2已经能解微积分了！这个支持视频推理的开源怪兽，正在重定义多模态战场」

大家好，我是蚝油菜花。你可能已经见过无数个"多模态大模型"，但今天要说的 Ovis2 绝对会让你瞳孔地震——

🔥 全球首个实现《盗梦空间》级嵌套推理：视频关键帧分析→图表OCR→数学公式求解→生成报告
🔥 1B小模型跑出34B的效果：结构化嵌入对齐技术让参数量直降97%
🔥 企业级多语言OCR：从迪拜财报到东京地铁图，83种语言精准提取

这个由阿里巴巴国际团队打造的开源神器，正在掀起多模态应用的完美风暴。接下来我们将拆解其四大核心技术，手把手教你在本地部署视频理解AI体！

🚀 快速阅读

Ovis2 是一款新型多模态大语言模型，具有强大的视觉与文本对齐能力。

核心功能：支持文本、图像、视频等多种输入模态，提升复杂逻辑推理能力。
技术原理：通过结构化嵌入对齐实现视觉与文本的高效融合，并引入四阶段训练策略优化性能。

Ovis2 是什么

Ovis2 是阿里巴巴国际团队推出的一款新型多模态大语言模型，基于结构化嵌入对齐技术解决了视觉与文本模态间的差异问题。相比其前身 Ovis 系列，Ovis2 不仅继承了原有架构的优势，还进一步优化了小规模模型的能力密度。

Ovis2-Performance

通过指令微调和偏好学习，Ovis2 显著提升了思维链（CoT）推理能力，使其在数学推理和视频理解任务中表现尤为突出。此外，Ovis2 引入了对视频和多图像处理的支持，增强了多语言 OCR 能力，并推出了 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本，以满足多样化需求。

Ovis2 的开源为多模态大模型的研究和应用提供了全新的方向，尤其是在复杂场景下的视觉与语言任务中展现出卓越性能。

Ovis2 的主要功能

多模态理解与生成：处理文本、图像、视频等多种输入模态，生成高质量的文本输出，支持复杂场景下的视觉和语言任务。
强化推理能力：基于思维链（CoT）推理能力的提升，解决复杂的逻辑和数学问题，提供逐步推理的解决方案。
视频和多图像处理：支持关键帧选择和多图像输入，处理跨帧的复杂视觉信息。
多语言支持和 OCR 能力：从复杂视觉元素（如表格、图表）中提取结构化数据，支持多种语言的文本处理。
小模型优化：通过优化训练策略，使小规模模型达到高能力密度，满足不同应用场景的需求。

Ovis2 的技术原理

Ovis-illustration

结构化嵌入对齐：基于视觉 tokenizer 将图像分割成图像块（patch），提取特征后映射到“视觉单词”上，形成概率化的视觉 token，实现模态间的结构化对齐。
四阶段训练策略：
1. 冻结 LLM，训练视觉模块，学习视觉特征到嵌入的转化。
2. 增强高分辨率图像理解和多语言 OCR 能力。
3. 使视觉嵌入对齐 LLM 的对话格式。
4. 提升模型对用户指令的遵循能力和输出质量。
视频理解增强：使用 MDP3 算法选择关键帧，提升视频理解能力。
基于 Transformer 架构：结合强大的视觉编码器（如 ViT）和语言模型（如 Qwen），实现高效的多模态融合和生成。

如何运行 Ovis2

1. 安装环境

Ovis2 支持 Python 3.10 和 PyTorch 2.4.0。以下是安装步骤：

git clone git@github.com:AIDC-AI/Ovis.git
conda create -n ovis python=3.10 -y
conda activate ovis
cd Ovis
pip install -r requirements.txt
pip install -e .

2. 推理示例

以下代码展示了如何使用 Ovis2 处理图像和文本输入：

from PIL import Image
from ovis.serve.runner import RunnerArguments, OvisRunner

# 加载图像和文本
image = Image.open('IMAGE_PATH')
text = 'PROMPT'

# 初始化模型
runner_args = RunnerArguments(model_path='MODEL_PATH')
runner = OvisRunner(runner_args)

# 执行推理
generation = runner.run([image, text])
print(generation)

3. 启动 Web UI

如果需要通过网页界面访问 Ovis2，可以运行以下命令：

python ovis/serve/server.py --model_path MODEL_PATH --port PORT

资源

GitHub 仓库：github.com/AIDC-AI/Ovi…
HuggingFace 仓库：huggingface.co/AIDC-AI/Ovi…

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦