在线教程丨单卡即可爆改,面壁智能等开源MiniCPM-V-4.6,1.3B端侧模型支持图像理解/视频理解/OCR/多轮多模态对话

36 阅读3分钟

过去几年,整个 AI 行业几乎都笼罩在 Scaling Law 的叙事之下。参数越大、训练数据越多,模型似乎就越接近「通用智能」。从千亿到万亿参数,大模型不断刷新人们对推理能力与世界知识的想象,也让「堆算力、卷规模」成为行业默认的发展路径。

但当 AI 真正开始走向产业落地,一个现实问题逐渐浮现:并不是所有场景,都需要部署在云端机房里的超级模型。 高昂的推理成本、不可控的网络延迟,以及日益敏感的数据隐私风险,正在让「大而全」的模型路线遭遇瓶颈。性能、时效与成本之间的「不可能三角」,成为 AI 普惠必须面对的问题。

于是,一个看似反常识的趋势开始出现:参数更小的模型,反而在越来越多真实场景中展现出更高的效率与性价比。尤其是在端侧设备与高并发工业环境里,轻量级模型正在承担 OCR、图像问答、意图识别等基础任务。 它们既能在手机端毫秒级离线运行,也能在 RAG 系统中负责路由分流与成本压缩,成为 AI 应用真正落地的重要基础设施。

近日,面壁智能、清华大学、OpenBMB 联手开源了新一代端侧多模态模型 MiniCPM-V 4.6,该模型参数规模仅约 1.3B,却同时支持图像理解、视频理解、OCR 与多轮多模态对话等能力,并在多项评测中实现了对同级别模型的超越。

图片

值得关注的是,官方 Model Card 提供了基于 Transformers 的 AutoProcessor 与 AutoModelForImageTextToText 推理方案,适合在单卡 GPU 环境中进行快速验证与应用原型开发。

为了便于全球开发者快速体验这一轻量级模型,HyperAI 已上线「MiniCPM-V-4.6:端侧高效多模态视觉语言模型」,已经完成环境配置,可轻松实现该模型的在线部署。

在线运行: go.hyper.ai/GVDmw

查看相关研究论文:

hyper.ai/papers/2605…

图片

Demo 示例

更多在线教程:

hyper.ai/notebooks

欢迎登录官网查看更多内容:

hyper.ai/

Demo 运行

1.进入 hyper.ai 首页后,选择「教程」页面,或点击「查看更多教程」,选择「MiniCPM-V-4.6:端侧高效多模态视觉语言模型」,点击「运行此教程」。

图片

图片

2.页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。

注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

图片

3.选择「NVIDIA RTX 5090」以及「PyTorch」镜像,点击「Continue job execution(继续执行)」。

HyperAI 为新用户准备了注册福利,仅需 1,即可获得20小时RTX5090算力(原价1,即可获得 20 小时 RTX 5090 算力(原价 7),资源永久有效。

图片

图片

4.等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace。

图片

效果展示

1.页面跳转后,点击左侧 README 文件,进入后点击上方 Run(运行)。

图片

图片

2.待运行完成后,即可点击右侧 API 地址跳转至 demo 页面。

图片