InternVL:开源版 GPT4V
一个多模态模型,将视觉基础模型扩展到 60 亿参数,在 32 个视觉-语言基准测试中展现了卓越性能,涵盖图像/视频分类、检索等关键多模态任务。
GitHub:
github.com
演示:
internvl.opengvlab.com
一个多模态模型,将视觉基础模型扩展到 60 亿参数,在 32 个视觉-语言基准测试中展现了卓越性能,涵盖图像/视频分类、检索等关键多模态任务。
GitHub:
演示:
展开
3
6