从 Prompt 到多模态：手搓一个带知识库的 AI 客服 Agent在 NLP 领域，Prompt 的应用早就不是简单

在 NLP 领域，Prompt 的应用早就不是简单的“一问一答”了。除了常规的情感推断与信息提取，现在更火的是从 Text Generation 到 Image Generation 的多模态玩法。

很多新手一上来就想着怎么调包，但其实剥开各种 SDK 的外衣，本质都是向 LLM 远程服务器发送 HTTP 请求。今天这篇文章，我们就来聊聊怎么用最基础的 fetch 请求搞定多模态 API，顺便用 Coze 搭一个带私有知识库的客服 Agent。

什么是 AI Agent？

简单来说，AI 智能体就是一个能自主感知环境、规划决策，并独立完成目标任务的实体。

如果把大模型（LLM）比作“大脑”，负责思考和智能；那 Agent 的“手和脚”就是各种自动化工具，负责真正去执行任务。

为什么通用大模型不够用？

大模型虽然聪明，但有个致命瓶颈：它的知识是静态的。那些过时的信息、最新的新闻，以及你公司内部的私有数据，它统统不知道。

怎么解决？答案就是知识库。

你可以把知识库理解为一个素材仓库，存放各类专业资料，供 AI 随时调取参考。有了它，LLM 才能给出更准确、更贴合实际业务的回答。这也是为什么现在各大公司都在卷“企业知识库聊天机器人”——泛泛而谈的通用 LLM，永远打不过带有垂直知识库的 AI Agent。

0 代码搭建：用 Coze 搞定客服 Agent

如果你不想写代码，Coze（扣子）这种可视化平台绝对是首选。搭建过程非常简单：

新建 Agent：在 Coze 上创建一个应用。
写 Prompt：这是灵魂。你需要给它设定清晰的人设（比如“你是一个智能客服机器人”），并划定明确的边界，告诉它“能干什么、不能干什么”。
挂载知识库：这一步很关键。支持上传 TXT、Word、PDF、Excel，甚至可以直接对接飞书等企业内部系统。

注：知识库不是随便丢进去就行的，前期必须经过清洗、鉴别和整理，垃圾进只会导致垃圾出。

进阶实战：用 Fetch 调用多模态 API

回到开头说的，很多时候我们需要 AI 理解图片并生成新图。抛开 OpenAI 的 SDK，我们直接用原生的 fetch 发 POST 请求，这样更安全，也更容易理解底层逻辑。

下面是一段调用阿里云通义千问多模态 API 的 Node.js 示例：

javascript

编辑

1import dotenv from 'dotenv';
2dotenv.config();
3
4async function generateImage() {
5  const OPENAI_API_KEY = process.env.OPENAI_API_KEY;
6
7  // 本质就是一次 HTTP API 请求，用 fetch 发送 POST 请求比 GET 更安全
8  const res = await fetch(
9    // 多模态的 API 服务地址
10    'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation',
11    {
12      method: 'POST',
13      headers: {
14        'Content-Type': 'application/json',
15        // 在请求头中指定 API Key 进行权限校验
16        'Authorization': `Bearer ${OPENAI_API_KEY}`
17      },
18      // 请求体配置
19      body: JSON.stringify({
20        "model": "qwen-image-2.0-pro",
21        "input": {
22          "message": [
23            {
24              "role": "user",
25              "content": [
26                // 支持传入多张图片和文字指令
27                { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input1.png" },
28                { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input2.png" },
29                { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input3.png" },
30                { "text": "图1中的女生穿着图2中的黑色裙子按图3的姿势坐下" }
31              ]
32            }
33          ]
34        }
35      })
36    }
37  );
38  
39  // 后续处理返回结果...
40}

核心逻辑拆解：

URL 地址：指向具体的多模态生成服务。
Header：通过 Authorization 传递鉴权信息。
Body：content 是一个数组，你可以把多张图片 URL 和一段文本指令混排在一起，大模型会自己理解它们之间的关联。

总结

从底层的 HTTP 请求，到 Coze 上的可视化编排，再到知识库的注入，AI 应用的开发门槛其实越来越低了。但工具再好，核心还是在于你怎么设计 Prompt，以及怎么构建高质量的知识库。

通用的泛泛而谈，不如具体的精准打击。赶紧动手搭一个属于你的 Agent 试试吧！
这篇约 1000 字的文章去掉了机械的过渡词，采用了掘金社区常见的“痛点引入+原理解析+代码实战”的行文逻辑。你觉得目前的语言风格和技术深度符合你的预期吗？