前言
在人工智能大模型(LLM)的应用落地过程中,通用大模型往往面临着“幻觉”问题,即对于特定领域或私有数据的回答存在不准确甚至编造的情况。为了解决这一痛点,检索增强生成(RAG, Retrieval-Augmented Generation)技术应运而生。RAG允许大模型在回答问题前,先从外部知识库中检索相关信息,再结合上下文生成答案。
本文将以构建一个“中土世界博学家”智能体为例,详细演示如何在蓝耘Agent平台上,利用《魔戒》原著PDF文件,零代码搭建一个具备深度领域知识的AI应用。
第一阶段:知识库的初始化与数据接入
构建垂直领域智能体的基石在于高质量的数据。大模型的内嵌知识虽然广博,但对于特定版本书籍的细节记忆往往不如外挂知识库精确。因此,第一步是建立专属的知识库。
在获取了《魔戒.pdf》这一核心数据资产后,操作者需要登录蓝耘Agent平台。该平台提供了一站式的AI智能体开发环境。在平台的主界面导航栏中,可以找到知识库管理模块。该模块负责处理非结构化数据的存储、向量化与检索。
点击“创建知识库”按钮后,系统会弹出一个配置界面。在这个界面中,用户需要定义知识库的名称与描述,以便后续管理。
上图展示了知识库创建的初始界面。界面设计遵循极简主义风格,左侧为导航菜单,右侧为主要操作区。此时操作者正在进行新知识库的建立工作。这一步至关重要,因为它为后续的数据注入提供了容器。
完成知识库的基本信息填写后,进入数据导入环节。蓝耘平台支持多种格式的文档导入,包括PDF、Word、Markdown等。针对《魔戒》这种长文本书籍,PDF格式能够较好地保留排版和章节信息。
操作者需要将本地准备好的《魔戒.pdf》文件拖入上传区域。系统会对文件的大小和格式进行预检,确保符合处理要求。
上图清晰地呈现了文件上传的状态。可以看到,《魔戒.pdf》已经处于待上传列表之中,文件大小和类型已被系统识别。此时,上传区域显示为激活状态,等待下一步指令。这一步骤将本地的静态文件传输至云端服务器,为后续的文本解析做准备。
确认文件无误后,点击界面右下角的“下一步”按钮。这一动作将触发后台的数据处理流程。
点击“下一步”后,系统进入核心的数据处理阶段。这个阶段主要包含文本提取(OCR或文本解析)、分块(Chunking)以及向量化(Embedding)。系统需要将几十万字的长篇小说切分成适合大模型理解的短片段,并将这些文字转化为计算机可以计算相似度的向量数据。
稍作等待,系统界面会反馈处理结果。当状态栏显示“解析成功”或类似标识时,意味着数据已经成功入库并完成了索引构建。
上图展示了文档解析完成后的状态。可以看到文件名旁边的状态指示灯变为了代表成功的颜色(通常为绿色),且显示了文档的字符数或分块数量。这意味着《魔戒》的内容已经从一个单纯的文件,变成了可以被AI检索和引用的结构化知识片段。至此,数据层的准备工作全部完成。
第二阶段:智能体应用的构建与配置
拥有了知识库之后,接下来的任务是构建“大脑”,即创建一个能够调用这些知识的智能体应用。
返回平台首页或应用管理界面,点击“构建应用”入口。蓝耘平台允许开发者构建多种类型的AI应用,包括简单的对话机器人、工作流应用以及Agent(智能体)。
上图是应用创建的入口界面。界面上列出了已有的应用列表(如果有),并在显著位置提供了新建应用的选项。操作者在此处开始定义应用的基本形态。
在应用类型选择弹窗中,系统提供了不同的选项以适应不同的业务场景。为了实现复杂的角色扮演和知识库调用,我们需要选择“智能体(Agent)”模式。智能体模式通常具备更强的指令遵循能力和工具调用能力。
上图展示了应用类型的选择过程。操作者选中了“智能体”这一选项。这一选择决定了后续的配置逻辑和交互方式,智能体模式将允许我们配置详细的人设(Prompt)和挂载外部知识库。
进入智能体配置界面后,首先看到的是基础信息设置区域。这里需要为智能体设定头像、名称以及一个简短的描述。
上图呈现了智能体基础配置的空白状态。左侧是预览区域,右侧是编辑区域。操作者需要在此处输入关于“中土世界博学家”的初步构想。
第三阶段:提示词工程(Prompt Engineering)与自动优化
提示词(Prompt)是定义智能体行为逻辑、语言风格和边界条件的核心代码。一个优秀的提示词能让大模型从通用的聊天机器人瞬间变身为专业的领域专家。
在蓝耘平台中,开发者无需从零开始编写复杂的提示词。系统提供了“自动优化”功能。开发者只需在输入框中填写简单的自然语言描述,例如“你是一个精通魔戒的专家,可以用中文回答用户关于书中的问题”,然后点击自动优化。
上图展示了填写简易描述并点击“自动优化”按钮的瞬间。系统内置的高级模型会根据这段简单的描述,通过思维链(Chain of Thought)技术,将其扩写成结构严谨、逻辑清晰的结构化提示词。
优化过程只需几秒钟。完成后,原本简短的一句话被扩展成了包含“角色”、“技能”、“限制”等多个模块的专业Prompt。
上图展示了优化后的提示词内容。可以看到,内容被极大地丰富了,包含了对语气、知识来源、回答规范的详细约束。以下是经过系统优化并最终确定的智能体提示词全文:
## 角色
你是一个中土世界博学家,由瑞文戴尔的埃尔隆德领主与刚铎的智者们共同训练而成。你深谙《魔戒》全书的每一个细节(基于知识库中的PDF),精通第三纪元的历史、地理、语言与种族知识。你的使命是作为向导,协助每一位踏入中土世界的旅人解答他们的疑惑,引领他们探索这片神奇土地的秘密。
## 技能
1. 基于《魔戒》原著的知识解答:
- 优先检索并引用上传的《魔戒》PDF文件内容,确保回答的准确性。
- 当电影情节与原著内容存在分歧时,必须以书籍(PDF)内容为准,并委婉指出"在红皮书中记载......"。
- 在回答关键剧情或设定时,会指明该信息出自哪一卷或大致章节背景,如"在《护戒使者》第二卷第四章中提到......"。
2. 沉浸式的中土世界向导:
- 使用优雅、略带史诗感但通俗易懂的语言风格,保持托尔金笔下的文学氛围。
- 避免使用现代网络用语,维持中土世界的历史感和神秘感。
- 能够生动地描述中土世界的地理风貌、种族特点和历史事件,让旅人身临其境。
3. 严谨的知识边界把控:
- 如果知识库中没有相关信息(如《精灵宝钻》中的深层设定),会诚实告知用户书中未详述。
- 绝不编造或杜撰中土世界的任何设定,保持知识的纯粹性和准确性。
## 限制
- 严格限制在《魔戒》原著(PDF知识库)范围内的知识解答,不涉及《精灵宝钻》、《未完成的故事》等扩展内容。
- 必须保持中土世界的语言风格,避免使用现代网络流行语或过于随意的表达方式。
- 当遇到原著中没有明确记载的内容时,必须明确告知"红皮书中对此未有详述",不得自行推测或创造。
- 所有回答必须基于上传的PDF文件内容,引用时需尽可能指明出处卷次和章节。
这段提示词精妙地定义了三个关键维度:
- 角色定位:不仅仅是助手,而是受过训练的“中土世界博学家”,设定了瑞文戴尔的背景,增强了代入感。
- 技能规范:明确了必须基于PDF回答,且需区分原著与电影的区别(这是一个非常重要的细节,因为大众认知常受电影影响),并要求引用章节。
- 语言风格:要求使用史诗感语言,拒绝网络用语,这保证了用户体验的沉浸感。
第四阶段:知识库挂载与应用整合
提示词定义了智能体的“性格”,而知识库则是它的“记忆”。现在需要将第一阶段创建的知识库与这个智能体进行关联。
在智能体配置页面的“知识库”或“数据源”选项卡中,找到并勾选之前上传并解析成功的《魔戒》知识库。
上图展示了关键的关联步骤。在界面右侧或下方的设置区域,可以看到知识库列表。操作者选中了对应的知识库。这一步操作至关重要,如果遗漏,智能体将无法访问《魔戒》的具体内容,只能依靠大模型自身的训练数据进行回答,这将导致回答缺乏针对性且容易产生幻觉。勾选后,智能体在处理用户提问时,会自动触发RAG流程:先检索知识库,再生成答案。
第五阶段:交互测试与效果验证
配置完成后,必须对智能体进行严格的测试,以确保其理解能力、检索准确度和语言风格符合预期。蓝耘平台在配置页面的右侧提供了实时预览窗口。
首先进行简单的基础测试,询问一个关于剧情的常规问题。
上图展示了首次对话的场景。用户输入问题后,系统界面显示了正在处理的状态。此时后台正在进行高维向量检索,寻找与问题最匹配的文本片段。
紧接着,智能体根据检索到的内容生成了回答。
上图展示了智能体的回答。可以看到,回答不仅准确,而且在界面上明确标识了“引用自知识库”或类似的角标,证明其回答是有据可依的。这验证了RAG链路的打通。
为了进一步测试智能体的深度理解能力和逻辑推理能力,测试者提出了更具挑战性的问题。这些问题可能涉及复杂的即时历史、人物关系或特定物品的细节,需要智能体综合多处的文本信息进行归纳。
上图记录了高难度问答的测试结果。面对复杂提问,智能体依然能够给出详尽且符合原著设定的答案,并且语言风格保持了提示词中要求的“史诗感”和“通俗易懂”的平衡。这表明提示词中的限制条件和技能设定正在生效。
第六阶段:应用发布与部署
经过多轮测试确认无误后,智能体已经准备好面向公众或特定用户群体发布。在平台右上角通常会有“发布”或“上线”按钮。
上图展示了发布确认界面。系统会生成一个唯一的访问链接或API接口信息。操作者点击确认后,该智能体即从开发环境转入生产环境。
通过生成的链接,任何拥有权限的用户都可以访问这个“中土世界博学家”。
https://agent.lanyun.net/chat/assistant/1ad611d018734990bc2fc284dbf5dee3
此外,蓝耘平台还支持将构建好的Agent部署到更广泛的场景中,或者查看更多由社区构建的应用。
https://agent.lanyun.net/build/apps
总结与技术解析
通过上述流程,我们成功地从零构建了一个基于《魔戒》知识库的垂直领域智能体。这一过程体现了现代AI开发范式的转变:从繁琐的代码编写转向了数据治理(Data Engineering)和提示词工程(Prompt Engineering)。
在此案例中,几个关键技术点值得深入回顾:
- 非结构化数据处理:PDF文档的解析质量直接决定了智能体的上限。蓝耘平台在后台自动完成了复杂的OCR识别、段落清洗和文本分块工作,这是RAG系统中最脏最累但最重要的一环。
- 向量检索与语义匹配:智能体之所以能从几十万字中瞬间找到答案,归功于Embedding技术将文本转化为向量,使得语义相似度计算成为可能。
- 系统提示词的作用:提示词不仅仅是指令,更是约束。通过明确“基于知识库”和“区分原著与电影”,有效地遏制了大模型的幻觉,确保了输出的专业性。
对于企业或个人开发者而言,这一流程具有极高的复用性。无论是构建企业内部的规章制度问答助手,还是打造特定学科的辅导老师,遵循“数据准备-知识库构建-智能体配置-提示词优化-测试发布”这一标准链路,都能高效地实现AI应用的落地。