❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🚨 「当GPT-4o还在玩图文对话时,阿里的Ovis2已经能解微积分了!这个支持视频推理的开源怪兽,正在重定义多模态战场」
大家好,我是蚝油菜花。你可能已经见过无数个"多模态大模型",但今天要说的 Ovis2 绝对会让你瞳孔地震——
- 🔥 全球首个实现《盗梦空间》级嵌套推理:视频关键帧分析→图表OCR→数学公式求解→生成报告
- 🔥 1B小模型跑出34B的效果:结构化嵌入对齐技术让参数量直降97%
- 🔥 企业级多语言OCR:从迪拜财报到东京地铁图,83种语言精准提取
这个由阿里巴巴国际团队打造的开源神器,正在掀起多模态应用的完美风暴。接下来我们将拆解其四大核心技术,手把手教你在本地部署视频理解AI体!
🚀 快速阅读
Ovis2 是一款新型多模态大语言模型,具有强大的视觉与文本对齐能力。
- 核心功能:支持文本、图像、视频等多种输入模态,提升复杂逻辑推理能力。
- 技术原理:通过结构化嵌入对齐实现视觉与文本的高效融合,并引入四阶段训练策略优化性能。
Ovis2 是什么
Ovis2 是阿里巴巴国际团队推出的一款新型多模态大语言模型,基于结构化嵌入对齐技术解决了视觉与文本模态间的差异问题。相比其前身 Ovis 系列,Ovis2 不仅继承了原有架构的优势,还进一步优化了小规模模型的能力密度。
通过指令微调和偏好学习,Ovis2 显著提升了思维链(CoT)推理能力,使其在数学推理和视频理解任务中表现尤为突出。此外,Ovis2 引入了对视频和多图像处理的支持,增强了多语言 OCR 能力,并推出了 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本,以满足多样化需求。
Ovis2 的开源为多模态大模型的研究和应用提供了全新的方向,尤其是在复杂场景下的视觉与语言任务中展现出卓越性能。
Ovis2 的主要功能
- 多模态理解与生成:处理文本、图像、视频等多种输入模态,生成高质量的文本输出,支持复杂场景下的视觉和语言任务。
- 强化推理能力:基于思维链(CoT)推理能力的提升,解决复杂的逻辑和数学问题,提供逐步推理的解决方案。
- 视频和多图像处理:支持关键帧选择和多图像输入,处理跨帧的复杂视觉信息。
- 多语言支持和 OCR 能力:从复杂视觉元素(如表格、图表)中提取结构化数据,支持多种语言的文本处理。
- 小模型优化:通过优化训练策略,使小规模模型达到高能力密度,满足不同应用场景的需求。
Ovis2 的技术原理
- 结构化嵌入对齐:基于视觉 tokenizer 将图像分割成图像块(patch),提取特征后映射到“视觉单词”上,形成概率化的视觉 token,实现模态间的结构化对齐。
- 四阶段训练策略:
- 冻结 LLM,训练视觉模块,学习视觉特征到嵌入的转化。
- 增强高分辨率图像理解和多语言 OCR 能力。
- 使视觉嵌入对齐 LLM 的对话格式。
- 提升模型对用户指令的遵循能力和输出质量。
- 视频理解增强:使用 MDP3 算法选择关键帧,提升视频理解能力。
- 基于 Transformer 架构:结合强大的视觉编码器(如 ViT)和语言模型(如 Qwen),实现高效的多模态融合和生成。
如何运行 Ovis2
1. 安装环境
Ovis2 支持 Python 3.10 和 PyTorch 2.4.0。以下是安装步骤:
git clone git@github.com:AIDC-AI/Ovis.git
conda create -n ovis python=3.10 -y
conda activate ovis
cd Ovis
pip install -r requirements.txt
pip install -e .
2. 推理示例
以下代码展示了如何使用 Ovis2 处理图像和文本输入:
from PIL import Image
from ovis.serve.runner import RunnerArguments, OvisRunner
# 加载图像和文本
image = Image.open('IMAGE_PATH')
text = 'PROMPT'
# 初始化模型
runner_args = RunnerArguments(model_path='MODEL_PATH')
runner = OvisRunner(runner_args)
# 执行推理
generation = runner.run([image, text])
print(generation)
3. 启动 Web UI
如果需要通过网页界面访问 Ovis2,可以运行以下命令:
python ovis/serve/server.py --model_path MODEL_PATH --port PORT
资源
- GitHub 仓库:github.com/AIDC-AI/Ovi…
- HuggingFace 仓库:huggingface.co/AIDC-AI/Ovi…
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦