豆包视觉理解模型正式登场：体验流程详解官方文档：https://www.coze.cn/docs/guides/vlm

官方文档：www.coze.cn/docs/guides…

简介

在12月18日举办的火山引擎 Force 大会上，字节跳动正式发布发布豆包视觉理解模型，为企业提供极具性价比的多模态大模型能力。

当你传入图片时，视觉语言模型（VLM）可以理解图片里的视觉信息，并结合这些信息完成图片相关的任务，例如描述图片等。豆包模型家族中的 Doubao-vision-pro-32k 就是 VLM 的一种。基于RTC + 视觉大模型/语言大模型的强大理解能力，扣子支持和自己搭建的智能体进行低延迟高质量的视频实时通话，让智能体耳聪目明。