Operit AI教程系列5：功能模型与多模态输入功能模型与识图在读这一节之前，请确保看了上一个模型配置的教程。

在读这一节之前，请确保看了上一个 模型配置 的教程。

有的时候可能我们会想：既然 deepseek 不支持识图，那我们能不能另外配置一下 glm-4.6v 这样的识图模型，然后让主聊天模型调用这个小模型呢？再进一步，聊天总结能不能也用别的模型，比如 gemini flash 去生成呢？

这就是功能模型干的事情。顾名思义，功能模型为每个功能设定一个模型配置。也就是说，你需要按照上一节的内容，新建出一个或者多个配置。

目前主要功能有：聊天、总结、多模态输入、群聊规划、记忆库总结 等等。

当你发现奇怪的报错，但是你的聊天模型是通的时候，请优先检查功能模型。

还有一点需要强调：角色卡绑定、聊天下面选择的，都是直接对应的聊天功能模型，其他功能模型修改的入口只有通过这个功能模型界面修改。

功能模型配置

接下来，将会以多模态输入，以及UI控制器，这几个功能模型进行详细解释。因为这几个相对别的比较特殊，别的几个只要配置了能够对话的正常模型即可，而这几个是有特殊的配置要求的。

模型识图功能

Operit AI 支持两种方式实现图像识别功能：直接识图 和 通过功能模型调用识图。直接识图，是直接用聊天模型的识图功能实现的，而第二种间接识图，则是通过前面提到的功能模型。

对于支持视觉理解的多模态模型（如 GPT-4 Vision、Claude 3.5 Sonnet、Gemini Pro Vision 等），您可以在模型配置中启用直接识图功能。

模型配置界面

配置完成后，在使用该模型进行对话时，直接发送图片给 AI，AI 可以直接识别和理解图片内容，无需额外调用工具，响应速度更快（不过这也不一定）。

对于不支持直接识图的模型，您可以通过配置功能模型来实现图像识别功能。系统会在需要时自动调用配置的识图模型来处理图片。

功能模型配置界面

当您使用不支持直接识图的主模型进行对话时，当你在对话中发送图片时，聊天模型会通过 read_file 工具调用图像识别功能模型，识图模型处理完成后，将结果返回给主模型，主模型基于识别结果继续对话。

这一点要在识图这里特殊说明，因为软件考虑了这种情况，比如最开始，用户快速入门之后，就是没有任何的模型能够识图的。但是呢，软件做了最后一层兜底：当你发送图后，AI 会使用 read_file 工具并结合 OCR 直接提取图片文本内容，虽然效果不会特别好，但是总比没有好。

在对话中，如果你有自动操作需求，可能 AI 会调用 UI 控制器 的功能模型去操作，也可能直接主模型上场直接操作。这里先记住一点：功能模型可以被委托去处理特定任务。

简单说明一下：有需求的可以在工具箱里面，划到底，有个autoglm一键配置。软件可以在debugger以上等级使用autoglm的功能模型，开始虚拟屏幕自动点击(当然，这个也可以不配)。后面会单独出一节介绍UI自动化的。

当然也可以阅读老文档先凑合一下：

平台这里就不传老文档了，可以前往官网阅读。