Operit AI教程系列5:功能模型与多模态输入

5 阅读4分钟

功能模型与识图

在读这一节之前,请确保看了上一个 模型配置 的教程。

有的时候可能我们会想:既然 deepseek 不支持识图,那我们能不能另外配置一下 glm-4.6v 这样的识图模型,然后让主聊天模型调用这个小模型呢?再进一步,聊天总结能不能也用别的模型,比如 gemini flash 去生成呢?

这就是功能模型干的事情。顾名思义,功能模型为每个功能设定一个模型配置。也就是说,你需要按照上一节的内容,新建出一个或者多个配置。

目前主要功能有:聊天、总结、多模态输入、群聊规划、记忆库总结 等等。

当你发现奇怪的报错,但是你的聊天模型是通的时候,请优先检查功能模型

还有一点需要强调:角色卡绑定、聊天下面选择的,都是直接对应的聊天功能模型,其他功能模型修改的入口只有通过这个功能模型界面修改。

功能模型配置

接下来,将会以多模态输入,以及UI控制器,这几个功能模型进行详细解释。因为这几个相对别的比较特殊,别的几个只要配置了能够对话的正常模型即可,而这几个是有特殊的配置要求的。

模型识图功能

Operit AI 支持两种方式实现图像识别功能:直接识图通过功能模型调用识图。直接识图,是直接用聊天模型的识图功能实现的,而第二种间接识图,则是通过前面提到的功能模型。

方式一:直接识图(聊天模型支持识图)

对于支持视觉理解的多模态模型(如 GPT-4 Vision、Claude 3.5 Sonnet、Gemini Pro Vision 等),您可以在模型配置中启用直接识图功能。

配置步骤

  1. 进入 "设置" -> "模型与参数配置"
  2. 找到你的聊天模型
  3. 在配置界面中找到 "启用直接图片处理" 选项
  4. 勾选该选项,启用直接图片处理功能
  5. 保存配置并点击测试,确保测试通过

模型配置界面

使用方法

配置完成后,在使用该模型进行对话时,直接发送图片给 AI,AI 可以直接识别和理解图片内容,无需额外调用工具,响应速度更快(不过这也不一定)。

方式二:通过功能模型调用识图(聊天模型不支持识图)

对于不支持直接识图的模型,您可以通过配置功能模型来实现图像识别功能。系统会在需要时自动调用配置的识图模型来处理图片。

配置步骤

  1. 进入 "设置" -> "功能模型配置"
  2. 找到 "图像识别" 功能模块
  3. 选择一个支持识图的多模态模型配置
  4. 确保该模型配置已启用"直接图片处理"选项
  5. 保存配置并测试

功能模型配置界面

工作原理

当您使用不支持直接识图的主模型进行对话时,当你在对话中发送图片时,聊天模型会通过 read_file 工具调用图像识别功能模型,识图模型处理完成后,将结果返回给主模型,主模型基于识别结果继续对话。

特殊情况:没有模型能够识图

这一点要在识图这里特殊说明,因为软件考虑了这种情况,比如最开始,用户快速入门之后,就是没有任何的模型能够识图的。但是呢,软件做了最后一层兜底:当你发送图后,AI 会使用 read_file 工具并结合 OCR 直接提取图片文本内容,虽然效果不会特别好,但是总比没有好。

UI自动化操作

在对话中,如果你有自动操作需求,可能 AI 会调用 UI 控制器 的功能模型去操作,也可能直接主模型上场直接操作。这里先记住一点:功能模型可以被委托去处理特定任务

简单说明一下:有需求的可以在工具箱里面,划到底,有个autoglm一键配置。软件可以在debugger以上等级使用autoglm的功能模型,开始虚拟屏幕自动点击(当然,这个也可以不配)。后面会单独出一节介绍UI自动化的。

当然也可以阅读老文档先凑合一下:

平台这里就不传老文档了,可以前往官网阅读。