在 NLP 领域,Prompt 的应用早就不是简单的“一问一答”了。除了常规的情感推断与信息提取,现在更火的是从 Text Generation 到 Image Generation 的多模态玩法。
很多新手一上来就想着怎么调包,但其实剥开各种 SDK 的外衣,本质都是向 LLM 远程服务器发送 HTTP 请求。今天这篇文章,我们就来聊聊怎么用最基础的 fetch 请求搞定多模态 API,顺便用 Coze 搭一个带私有知识库的客服 Agent。
什么是 AI Agent?
简单来说,AI 智能体就是一个能自主感知环境、规划决策,并独立完成目标任务的实体。
如果把大模型(LLM)比作“大脑”,负责思考和智能;那 Agent 的“手和脚”就是各种自动化工具,负责真正去执行任务。
为什么通用大模型不够用?
大模型虽然聪明,但有个致命瓶颈:它的知识是静态的。那些过时的信息、最新的新闻,以及你公司内部的私有数据,它统统不知道。
怎么解决?答案就是知识库。
你可以把知识库理解为一个素材仓库,存放各类专业资料,供 AI 随时调取参考。有了它,LLM 才能给出更准确、更贴合实际业务的回答。这也是为什么现在各大公司都在卷“企业知识库聊天机器人”——泛泛而谈的通用 LLM,永远打不过带有垂直知识库的 AI Agent。
0 代码搭建:用 Coze 搞定客服 Agent
如果你不想写代码,Coze(扣子)这种可视化平台绝对是首选。搭建过程非常简单:
- 新建 Agent:在 Coze 上创建一个应用。
- 写 Prompt:这是灵魂。你需要给它设定清晰的人设(比如“你是一个智能客服机器人”),并划定明确的边界,告诉它“能干什么、不能干什么”。
- 挂载知识库:这一步很关键。支持上传 TXT、Word、PDF、Excel,甚至可以直接对接飞书等企业内部系统。
注:知识库不是随便丢进去就行的,前期必须经过清洗、鉴别和整理,垃圾进只会导致垃圾出。
进阶实战:用 Fetch 调用多模态 API
回到开头说的,很多时候我们需要 AI 理解图片并生成新图。抛开 OpenAI 的 SDK,我们直接用原生的 fetch 发 POST 请求,这样更安全,也更容易理解底层逻辑。
下面是一段调用阿里云通义千问多模态 API 的 Node.js 示例:
javascript
编辑
1import dotenv from 'dotenv';
2dotenv.config();
3
4async function generateImage() {
5 const OPENAI_API_KEY = process.env.OPENAI_API_KEY;
6
7 // 本质就是一次 HTTP API 请求,用 fetch 发送 POST 请求比 GET 更安全
8 const res = await fetch(
9 // 多模态的 API 服务地址
10 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation',
11 {
12 method: 'POST',
13 headers: {
14 'Content-Type': 'application/json',
15 // 在请求头中指定 API Key 进行权限校验
16 'Authorization': `Bearer ${OPENAI_API_KEY}`
17 },
18 // 请求体配置
19 body: JSON.stringify({
20 "model": "qwen-image-2.0-pro",
21 "input": {
22 "message": [
23 {
24 "role": "user",
25 "content": [
26 // 支持传入多张图片和文字指令
27 { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input1.png" },
28 { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input2.png" },
29 { "image": "https://help-static-aliyun-doc.aliyuncs.com/.../input3.png" },
30 { "text": "图1中的女生穿着图2中的黑色裙子按图3的姿势坐下" }
31 ]
32 }
33 ]
34 }
35 })
36 }
37 );
38
39 // 后续处理返回结果...
40}
核心逻辑拆解:
- URL 地址:指向具体的多模态生成服务。
- Header:通过
Authorization传递鉴权信息。 - Body:
content是一个数组,你可以把多张图片 URL 和一段文本指令混排在一起,大模型会自己理解它们之间的关联。
总结
从底层的 HTTP 请求,到 Coze 上的可视化编排,再到知识库的注入,AI 应用的开发门槛其实越来越低了。但工具再好,核心还是在于你怎么设计 Prompt,以及怎么构建高质量的知识库。
通用的泛泛而谈,不如具体的精准打击。赶紧动手搭一个属于你的 Agent 试试吧!
这篇约 1000 字的文章去掉了机械的过渡词,采用了掘金社区常见的“痛点引入+原理解析+代码实战”的行文逻辑。你觉得目前的语言风格和技术深度符合你的预期吗?