从 Prompt 到多模态:手搓一个带知识库的 AI 客服 Agent

0 阅读4分钟

在 NLP 领域,Prompt 的应用早就不是简单的“一问一答”了。除了常规的情感推断与信息提取,现在更火的是从 Text Generation 到 Image Generation 的多模态玩法。

很多新手一上来就想着怎么调包,但其实剥开各种 SDK 的外衣,本质都是向 LLM 远程服务器发送 HTTP 请求。今天这篇文章,我们就来聊聊怎么用最基础的 fetch 请求搞定多模态 API,顺便用 Coze 搭一个带私有知识库的客服 Agent。

什么是 AI Agent?

简单来说,AI 智能体就是一个能自主感知环境、规划决策,并独立完成目标任务的实体。

如果把大模型(LLM)比作“大脑”,负责思考和智能;那 Agent 的“手和脚”就是各种自动化工具,负责真正去执行任务。

为什么通用大模型不够用?

大模型虽然聪明,但有个致命瓶颈:它的知识是静态的。那些过时的信息、最新的新闻,以及你公司内部的私有数据,它统统不知道。

怎么解决?答案就是知识库

你可以把知识库理解为一个素材仓库,存放各类专业资料,供 AI 随时调取参考。有了它,LLM 才能给出更准确、更贴合实际业务的回答。这也是为什么现在各大公司都在卷“企业知识库聊天机器人”——泛泛而谈的通用 LLM,永远打不过带有垂直知识库的 AI Agent。

0 代码搭建:用 Coze 搞定客服 Agent

如果你不想写代码,Coze(扣子)这种可视化平台绝对是首选。搭建过程非常简单:

  1. 新建 Agent:在 Coze 上创建一个应用。
  2. 写 Prompt:这是灵魂。你需要给它设定清晰的人设(比如“你是一个智能客服机器人”),并划定明确的边界,告诉它“能干什么、不能干什么”。
  3. 挂载知识库:这一步很关键。支持上传 TXT、Word、PDF、Excel,甚至可以直接对接飞书等企业内部系统。

注:知识库不是随便丢进去就行的,前期必须经过清洗、鉴别和整理,垃圾进只会导致垃圾出。

进阶实战:用 Fetch 调用多模态 API

回到开头说的,很多时候我们需要 AI 理解图片并生成新图。抛开 OpenAI 的 SDK,我们直接用原生的 fetch 发 POST 请求,这样更安全,也更容易理解底层逻辑。

下面是一段调用阿里云通义千问多模态 API 的 Node.js 示例:

javascript

编辑

1import dotenv from 'dotenv';
2dotenv.config();
3
4async function generateImage() {
5  const OPENAI_API_KEY = process.env.OPENAI_API_KEY;
6
7  // 本质就是一次 HTTP API 请求,用 fetch 发送 POST 请求比 GET 更安全
8  const res = await fetch(
9    // 多模态的 API 服务地址
10    'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation',
11    {
12      method: 'POST',
13      headers: {
14        'Content-Type': 'application/json',
15        // 在请求头中指定 API Key 进行权限校验
16        'Authorization': `Bearer ${OPENAI_API_KEY}`
17      },
18      // 请求体配置
19      body: JSON.stringify({
20        "model": "qwen-image-2.0-pro",
21        "input": {
22          "message": [
23            {
24              "role": "user",
25              "content": [
26                // 支持传入多张图片和文字指令
27                { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input1.png" },
28                { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input2.png" },
29                { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input3.png" },
30                { "text": "图1中的女生穿着图2中的黑色裙子按图3的姿势坐下" }
31              ]
32            }
33          ]
34        }
35      })
36    }
37  );
38  
39  // 后续处理返回结果...
40}

核心逻辑拆解:

  • URL 地址:指向具体的多模态生成服务。
  • Header:通过 Authorization 传递鉴权信息。
  • Bodycontent 是一个数组,你可以把多张图片 URL 和一段文本指令混排在一起,大模型会自己理解它们之间的关联。

总结

从底层的 HTTP 请求,到 Coze 上的可视化编排,再到知识库的注入,AI 应用的开发门槛其实越来越低了。但工具再好,核心还是在于你怎么设计 Prompt,以及怎么构建高质量的知识库。

通用的泛泛而谈,不如具体的精准打击。赶紧动手搭一个属于你的 Agent 试试吧!
这篇约 1000 字的文章去掉了机械的过渡词,采用了掘金社区常见的“痛点引入+原理解析+代码实战”的行文逻辑。你觉得目前的语言风格和技术深度符合你的预期吗?