从 Prompt 到 AI Agent：一篇文章带你搞懂 NLP 多模态与知识库智能体从 Prompt 到 AI Age

从 Prompt 到 AI Agent：NLP 多模态与知识库智能体实践

一、Prompt 在 NLP 中的基础应用

在自然语言处理（NLP）中，Prompt（提示词）是我们与大型语言模型（LLM）交互的主要方式。通过精心设计的 Prompt，可以引导模型完成多种任务，其中最常见的两个就是情感推断与信息提取。

情感推断：给定一段文本，让模型判断其情感倾向（积极、消极或中性）。

信息提取：从非结构化文本中抽取出关键实体、关系或结构化信息。

这两个任务无需微调模型，仅靠 Prompt 设计就能在 LLM 上取得不错的效果。

二、多模态图片生成：从文本到图像

随着多模态技术的发展，模型不仅能生成文本，还能根据文字描述生成图片。这背后其实就是一个从 text generation 扩展到 image generation 的过程。

1. 本质就是一次 HTTP API 请求

很多人会依赖 OpenAI 官方 SDK，但实际上，无论你用 SDK 还是原生 fetch，本质上都是向 LLM 远程服务器发送 HTTP 请求。一个典型的请求包含以下要素：

URL 地址：指向服务商提供的多模态 API 端点。

请求方法：使用 POST。相比** GET，POST** 更安全，因为参数放在请求体中，不会暴露在 URL 上，也能传输更大量的数据（如图片 base64 或复杂 JSON）。

请求头（headers）：需要指定 Content-Type: application/json，以及 Authorization 字段携带 API Key 用于权限校验。

请求体（body）：包含具体指令，比如 messages 字段中可以放入多张图片和文字指令，实现多模态输入。

2. 实际代码示例

下面是一个基于阿里云 DashScope 的多模态图片生成示例（完整 index.mjs）：

javascript
import dotenv from 'dotenv';
dotenv.config();

async function generateImage() {
  const OPENAI_API_KEY = process.env.OPENAI_API_KEY;
  
  const res = await fetch(
    'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation',
    {
      method: 'POST',
      headers: {
        'Content-Type': 'application/json',
        'Authorization': `Bearer ${OPENAI_API_KEY}`
      },
      body: JSON.stringify({
        "model": "qwen-image-2.0-pro",
        "input": {
          "message": [
            {
              "role": "user",
              "content": [
                { "image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/thtclx/input1.png" },
                { "image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/iclsnx/input2.png" },
                { "image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/gborgw/input3.png" },
                { "text": "图1中的女生穿着图2中的黑色裙子按图3的姿势坐下" }
              ]
            }
          ]
        }
      })
    }
  )
}

这个请求同时传递了三张参考图片和一段文字描述，模型会根据这些输入生成符合要求的新图像。

三、AI Agent 与知识库

1. 什么是 AI Agent？

AI 智能体（Agent）是一个能自主感知环境、规划决策并独立完成目标任务的自主运行 AI 实体。它的结构可以拆解为两部分：

大脑：大语言模型，负责智能理解与推理。

手和脚：执行具体任务的能力，比如调用 API、操作数据库、发送消息等，实现自动化。

简单说，Agent = LLM + 行动能力。

2. 为什么需要知识库？

LLM 虽然训练数据海量，但存在两个明显的瓶颈：

过时信息：训练数据截止于某个时间点，最新的新闻或事件它不知道。

私有知识缺失：个人笔记、企业内部文档、产品手册等专有信息，LLM 原本无法获取。

那么如何给 LLM 提供它没有的知识呢？答案是知识库——一个存放各类专业资料、供 AI 随时调取参考的素材仓库。当用户提问时，Agent 先从知识库中检索相关内容，再结合 LLM 的生成能力给出答案，从而弥补通用模型的不足。

四、搭建客服智能体：基于 Coze 的实践

Coze 是一个 AI Agent 开发平台，支持0 代码可视化创建 Agent。一个完整的 Agent 除了核心 Prompt 外，还包含知识库、插件、工作流等许多组件。

1. 新建 Coze Agent

2. Prompt 规则

在创建 Agent 时，需要通过 Prompt 设定它的角色和行为：

给它一个人设：例如“你是一个智能客服机器人”。人设决定了语气、风格和回答范围。

清晰的边界：告诉它能做什么、不能做什么，避免越界回答不相关的问题。

3. 知识库的构建与管理

知识库不是简单上传文件就能直接用的。它需要经过清洗、鉴别、整理、存储等步骤，才能成为可靠的信息来源。

Coze 支持多种知识库类型：

文本上传：.txt、Word、PDF 等常见文档。

表格 Excel：结构化数据。

在线数据：通过 URL 抓取网页内容。

数据库：直接连接外部数据库。

飞书等企业内部系统：与企业协作工具集成。

这些类型覆盖了从个人到企业的各种知识接入需求。

五、总结

通过以上内容，可以梳理出一条清晰的技术路径：

Prompt 让 LLM 完成情感推断、信息提取等 NLP 任务。

多模态请求融合图像与文本，实现从文本到图片的生成。

AI Agent 以大模型为大脑，结合自动化能力独立完成目标。

知识库弥补 LLM 的时效性和私有知识短板，使回答更准确、更贴合业务。

有了知识库，LLM 不再只是泛泛地给出通用回答，而是能够深入具体的专业领域。这也是为什么许多公司都在开发企业知识库聊天机器人——用 AI Agent 整合私有知识，提供更精准的智能客服或内部助手服务。

以上就是本次对 Prompt、多模态生成、AI Agent 及知识库的完整实践总结。希望对你理解和应用这些技术有所帮助。