前言
在数字化浪潮下,AI 正重塑世界,其强大的知识处理与检索能力至关重要。本文带你探索 RAG 知识库,领略混合检索策略,解锁 AI 业务应用新可能,开启知识与智能之旅。
核心概念
- 大模型(LLM) :具有海量参数的人工智能模型,通过大规模的预训练获得广泛的知识和能力
- 提示词 (Prompt): 用来引导模型生成特定内容或执行特定任务,提示词的质量直接决定了 AI 输出的准确度
-
- 系统提示词:提前预设,整体约束 AI 输出的内容
- 用户提示词:随用随输,用户自主输入的内容
- 模型计费(Token) :模型输入输出耗费的基本处理单位,中文字符 => 0.6 - 1.8 Token,英文单词 => 1.3 Token,Token 计算器
- 模型蒸馏:将复杂大模型的知识转移到更小模型中,就可以在保持模型性能的同时,减小模型体积,降低推理成本
- 多模态能力:同时理解和处理多种类型的信息,比如文本、图像、音频和视频,实现图生文、文生图、文生视频等更智能的应用
- 知识库:存储和管理知识信息的结构化数据库,为系统提供知识支持
-
- 检索增强生成(RAG ):外部知识库给 AI 补充内容
- Embedding 嵌入: 将文本、图像等数据转换为向量表示,并写入到向量数据库中
- 智能体:感知环境并自主做出决策以完成任务的智能实体
-
- 智能体工作流(Agentic Workflow):规划和编排,让智能体自由搭配功能,自动化实现各种复杂任务
- 思维链(CoT) :展示模型的中间推理步骤,使复杂问题的解答过程更透明、可解释
- ReAct:结合推理(Reason)和行动(Act)的 AI 开发范式,思考 => 推理 => 计划 => 行动 => 再推理
- MCP(Model Context Protocol):AI 与外部工具或数据的标准化交互,一句话创建 MCP
实用工具
AI 图像生成
AI 业务应用
- 早期阶段:AI主要应用于单一的、指定的、自动化重复性任务,提升效率。
- 当前趋势:
-
- 生成式AI(GenAI)兴起,能实时生成高质量多模态内容,推动创新和业务模式重塑。
- 智能体(Agentic AI)的出现,拥有更强的理解和推理能力,使AI具备自主决策和行动能力。
- 垂类模型更加轻量化,垂直领域大模型和解决方案效果更显著。
- 深远影响:AI将不再仅仅是工具,而是成为个人及企业战略伙伴,共同创造价值
大模型介绍
AI 大模型是指具有超大规模参数(通常为数十亿到数万亿)的深度学习模型,通过对海量数据的训练,能够理解、生成人类语言,处理图像、音频等多种模态数据,并展现出强大的推理和创作能力
RAG 知识库
介绍
RAG(Retrieval-Augmented Generation) :从海量数据中检索出与问题最相关的片段,再用这些片段去生成准确、详细的回答,相当于给AI找了个“资料库”来帮忙回答问题,让回答更靠谱、更丰富
特性 | 传统大语言模型 | RAG增强模型 |
---|---|---|
知识时效性 | 受训练数据截止日期限制 | 可接入最新知识库 |
领域专业性 | 泛化知识,专业深度有限 | 可接入专业领域知识 |
响应准确性 | 可能产生 “幻觉” | 基于检索的事实依据 |
可控性 | 依赖原始训练 | 可通过知识库定制输出 |
资源消耗 | 较高(需要大模型参数) | 模型可更小,结合外部知识 |
流程
技术
Embedding
Embedding 嵌入是将高维离散数据(如文字、图片)转换为低维连续向量的过程。这些向量能在数学空间中表示原始数据的语义特征,使计算机能够理解数据间的相似性(语义相关和不相关,命中概率大)
Embedding 模型是执行这种转换算法的机器学习模型,如 Word2Vec(文本)、ResNet(图像)等。不同的 Embedding 模型产生的向量表示和维度数不同,一般维度越高表达能力更强,可以捕获更丰富的语义信息和更细微的差别,但同样占用更多存储空间
向量数据库
向量数据库 是用于存储和检索向量数据的系统,通过高效索引实现快速相似性搜索,支持 K近邻查询 等操作
与传统数据库不同(可通过插件安装实现,如:PGVector、Redis Stack 的 RediSearch),优化了高维向量的存储和检索,如:Milvus、Pinecone
召回
召回是信息检索的第一步,从海量数据中快速筛选出可能相关的候选项。例如,搜索引擎中,用户输入关键词 “前端 VUE3 计算属性” ,召回阶段会快速从数据库中找到大量可能相关的网页 (前端、VUE3、计算属性) 作为候选结果,重点是 速度快、范围广,而不是精确匹配
精排和 Rank 模型
精排(精确排序) 是搜索 / 推荐系统的最后阶段,使用计算复杂度更高的算法,考虑更多特征和业务规则,对少量候选项进行更复杂、精细的排序
比如,短视频推荐先通过召回获取数万个可能相关视频,再通过粗排缩减至数百条,最后精排阶段会考虑用户最近的互动、视频热度、内容多样性等复杂因素,确定最终展示的 10 个视频及顺序
Rank 模型(排序模型) 负责对召回阶段筛选出的候选集进行精确排序,考虑多种特征评估相关性
现代 Rank 模型通常基于深度学习,如 BERT、LambdaMART 等,综合考虑查询与候选项的相关性、用户历史行为等因素。举个例子,电商推荐系统会根据商品特征、用户偏好、点击率等给每个候选商品打分并排序
混合检索策略
混合检索策略 融合了多种检索方法的优点,通常结合关键词检索、语义检索和知识图谱等技术
实战
借助 Spring AI ETL 能力( 抽取、转换、加载 ), 参考 官方文档