从 Prompt 到 AI Agent:一篇文章带你搞懂 NLP 多模态与知识库智能体

1 阅读5分钟

从 Prompt 到 AI Agent:NLP 多模态与知识库智能体实践

一、Prompt 在 NLP 中的基础应用

在自然语言处理(NLP)中,Prompt(提示词)是我们与大型语言模型(LLM)交互的主要方式。通过精心设计的 Prompt,可以引导模型完成多种任务,其中最常见的两个就是情感推断与信息提取。

情感推断:给定一段文本,让模型判断其情感倾向(积极、消极或中性)。

信息提取:从非结构化文本中抽取出关键实体、关系或结构化信息。

这两个任务无需微调模型,仅靠 Prompt 设计就能在 LLM 上取得不错的效果。

二、多模态图片生成:从文本到图像

随着多模态技术的发展,模型不仅能生成文本,还能根据文字描述生成图片。这背后其实就是一个从 text generation 扩展到 image generation 的过程。

1. 本质就是一次 HTTP API 请求

很多人会依赖 OpenAI 官方 SDK,但实际上,无论你用 SDK 还是原生 fetch,本质上都是向 LLM 远程服务器发送 HTTP 请求。一个典型的请求包含以下要素:

URL 地址:指向服务商提供的多模态 API 端点。

请求方法:使用 POST。相比** GET,POST** 更安全,因为参数放在请求体中,不会暴露在 URL 上,也能传输更大量的数据(如图片 base64 或复杂 JSON)。

请求头(headers):需要指定 Content-Type: application/json,以及 Authorization 字段携带 API Key 用于权限校验。

请求体(body):包含具体指令,比如 messages 字段中可以放入多张图片和文字指令,实现多模态输入。

2. 实际代码示例

下面是一个基于阿里云 DashScope 的多模态图片生成示例(完整 index.mjs):

javascript
import dotenv from 'dotenv';
dotenv.config();

async function generateImage() {
  const OPENAI_API_KEY = process.env.OPENAI_API_KEY;
  
  const res = await fetch(
    'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation',
    {
      method: 'POST',
      headers: {
        'Content-Type': 'application/json',
        'Authorization': `Bearer ${OPENAI_API_KEY}`
      },
      body: JSON.stringify({
        "model": "qwen-image-2.0-pro",
        "input": {
          "message": [
            {
              "role": "user",
              "content": [
                { "image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/thtclx/input1.png" },
                { "image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/iclsnx/input2.png" },
                { "image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/gborgw/input3.png" },
                { "text": "图1中的女生穿着图2中的黑色裙子按图3的姿势坐下" }
              ]
            }
          ]
        }
      })
    }
  )
}

这个请求同时传递了三张参考图片和一段文字描述,模型会根据这些输入生成符合要求的新图像。

三、AI Agent 与知识库

1. 什么是 AI Agent?

AI 智能体(Agent)是一个能自主感知环境、规划决策并独立完成目标任务的自主运行 AI 实体。它的结构可以拆解为两部分:

大脑:大语言模型,负责智能理解与推理。

手和脚:执行具体任务的能力,比如调用 API、操作数据库、发送消息等,实现自动化。

简单说,Agent = LLM + 行动能力。

2. 为什么需要知识库?

LLM 虽然训练数据海量,但存在两个明显的瓶颈:

过时信息:训练数据截止于某个时间点,最新的新闻或事件它不知道。

私有知识缺失:个人笔记、企业内部文档、产品手册等专有信息,LLM 原本无法获取。

那么如何给 LLM 提供它没有的知识呢?答案是知识库——一个存放各类专业资料、供 AI 随时调取参考的素材仓库。当用户提问时,Agent 先从知识库中检索相关内容,再结合 LLM 的生成能力给出答案,从而弥补通用模型的不足。

四、搭建客服智能体:基于 Coze 的实践

Coze 是一个 AI Agent 开发平台,支持0 代码可视化创建 Agent。一个完整的 Agent 除了核心 Prompt 外,还包含知识库、插件、工作流等许多组件。

1. 新建 Coze Agent

登录 Coze 平台,创建一个新的 Agent,准备进行配置。

2. Prompt 规则

在创建 Agent 时,需要通过 Prompt 设定它的角色和行为:

给它一个人设:例如“你是一个智能客服机器人”。人设决定了语气、风格和回答范围。

清晰的边界:告诉它能做什么、不能做什么,避免越界回答不相关的问题。

3. 知识库的构建与管理

知识库不是简单上传文件就能直接用的。它需要经过清洗、鉴别、整理、存储等步骤,才能成为可靠的信息来源。

Coze 支持多种知识库类型:

文本上传:.txt、Word、PDF 等常见文档。

表格 Excel:结构化数据。

在线数据:通过 URL 抓取网页内容。

数据库:直接连接外部数据库。

飞书等企业内部系统:与企业协作工具集成。

这些类型覆盖了从个人到企业的各种知识接入需求。

五、总结

通过以上内容,可以梳理出一条清晰的技术路径:

Prompt 让 LLM 完成情感推断、信息提取等 NLP 任务。

多模态请求 融合图像与文本,实现从文本到图片的生成。

AI Agent 以大模型为大脑,结合自动化能力独立完成目标。

知识库 弥补 LLM 的时效性和私有知识短板,使回答更准确、更贴合业务。

有了知识库,LLM 不再只是泛泛地给出通用回答,而是能够深入具体的专业领域。这也是为什么许多公司都在开发企业知识库聊天机器人——用 AI Agent 整合私有知识,提供更精准的智能客服或内部助手服务。

以上就是本次对 Prompt、多模态生成、AI Agent 及知识库的完整实践总结。希望对你理解和应用这些技术有所帮助。