超越基础RAG:AI智能体实现上下文感知回复

33 阅读7分钟

RAG提升LLM准确性,但处理复杂非结构化数据面临挑战。未来需通过持续实验和AI代理,实现更智能、准确的实时AI。

译自:Beyond Basic RAG: AI Agents for Context-Aware Responses

作者:Rahul Auradkar

ChatGPT首次发布至今还不到三年。最初的大型语言模型(LLM)虽然广受欢迎,但准确性远未达到理想水平。因此,检索增强生成(RAG)应运而生,它通过自动将当前和相关的专有数据馈入LLM,显著改善了生成式AI的结果。

RAG整合了来自电子表格和关系数据库的结构化数据,以及来自电子邮件、PDF、聊天、社交媒体等非结构化数据。它对这些信息进行预处理和索引,并利用语义搜索工具,通过参考内部数据池以及更通用的LLM数据,为特定查询检索所需内容,从而提供更相关的答案。

……84%的数据和分析负责人表示,他们的数据策略需要彻底改革,才能使他们的AI雄心取得成功。

用更受信任的内部数据补充LLM,可以生成更好的AI输出,因为可以使用来自经过验证来源的最新信息。但RAG远非完美。

它面临着表格、图表、电子邮件和社交媒体帖子等复杂非结构化数据的挑战。例如,它可能会误解某些类型非结构化信息中的格式,并产生错误的响应。在其他情况下,RAG可能会输出过于笼统、过于详细或不完整的答案。

这严重限制了组织可以从其海量的非结构化数据存储中提取的价值。风险很高,因为Salesforce的一份新报告发现,84%的数据和分析负责人表示,他们的数据策略需要彻底改革,才能使他们的AI雄心取得成功。如果自主AI代理要广泛有效地实施,就必须克服这个问题。

理解RAG的局限性

为什么RAG倾向于误解某些形式的非结构化信息?它所利用的检索机制造成了几个问题:

分块不佳: 简单的文档分割方法可能会将相关信息(例如表格与其文本)分开,导致上下文丢失。这个过程忽略了文档的内部结构(标题、项目符号),将其视为扁平的文本流。例如,表格可能与解释性文本分离,使得检索到的数据毫无用处。

语义鸿沟: 尽管语义搜索能找到相似概念,但它可能在处理模棱两可的查询时失败,过于字面化地理解查询,或者在答案需要跨多个文档进行多跳推理时遇到困难。系统可能会检索到一个语义相似但事实不相关的片段。例如,它可能会检索到关键词,但这些关键词来自文档的错误部分或完全不相关的文档。

非文本数据问题: RAG难以处理表格和图表等非文本元素。它还可能由于光学字符识别(OCR)过程中的错误而误解扫描文档。

幻觉: 不完整或矛盾的检索数据可能导致LLM产生“幻觉”或提供不一致的答案。这并非罕见现象;89%已将AI投入生产的数据和分析负责人表示他们曾遇到不准确或误导性的AI输出。随着负责人估计他们组织数据中超过四分之一(26%)的数据不可信,问题的根源变得清晰。而RAG管道中缺乏可追溯性,使得验证信息来源变得困难。

连续性: RAG倾向于将数据转换和预处理视为一次性任务,而非持续过程。

本质上,传统的RAG实现不足以应对真实世界数据的复杂性。这促使了战略性的转变。与其追求更大的模型,不如将重点放在构建使它们真正可用的统一数据基础之上。这个统一的基础是提供准确、安全、情境化和企业级AI的首个关键步骤。这并不意味着业界正在放弃RAG。相反,它正在开发先进的系统来全面处理非结构化数据。能够处理这些格式是当今竞争格局中的一个关键差异化因素。

持续RAG实验的重要性

为了提供更相关和准确的答案,我们必须通过实验来提高非结构化数据的处理性能。为此,我们必须学习如何在关键RAG阶段最好地注入LLM,并优化元数据以提高答案的准确性。这对于短期收益和长期创新都至关重要。在某些情况下,它可能需要剥离HTML标签。在其他情况下,扁平化数据结构可能是处理文档中表格、图表和复杂格式的最佳方式。

因此,RAG实验要求改进结构化和非结构化数据的处理和利用方式,以最大限度地发挥其价值。它需要构建“重要性图谱”,绘制出不同数据实体之间的连接方式,从而使AI能够提供个性化推荐并为任何给定查询找到最相关的信息。

与其追求更大的模型,不如将重点放在构建使它们真正可用的统一数据基础之上。

LLM不再仅仅用于生成答案,而是被注入到关键的RAG阶段,以便每一步都能更智能、更准确地执行。这使得RAG从简单的检索转变为基于给定查询最相关信息的个性化数据推荐。

但实验并非一劳永逸。持续的数据转换和预处理调整对于确保输入到AI模型的数据具有最高质量大有裨益。通过这样做,AI输出变得更加准确和有效。这种持续学习过程包括不断测试文档如何转换、内容如何解析以及数据如何预处理。

代理RAG的关键用例

RAG的新方法利用基于AI的代理来提升信息检索过程。这些代理迅速学会将用户查询路由到最合适的数据源,分析并优化查询以提高准确性和相关性。它们生成详细的行动计划,并能执行这些计划,以实现特定目标或在扎实的业务背景下完成具体任务。

领域特定的AI代理增加了灵活性,可以在广泛的多样化应用和内部团队(销售、营销、财务等)中发挥作用。它们可以随着时间的推移学习、适应、改进并提高输出的相关性。由于它们易于扩展,因此适用于大型企业应用。它们的多模态特性意味着它们能够解释和创建跨多种模态(包括文本、图像、音频和视频)的内容。

用例包括:

  • 通过虚拟助手或聊天机器人,实时流畅、精确、高效地回答问题。
  • 自动化客户支持任务,例如解决常见查询、安排预约和提供技术援助。
  • 自动化检索、清洗和集成流程,从而简化海量数据集的管理和分析。
  • 提高市场研究、竞争分析和趋势识别中使用的商业智能应用程序的预测和预报的置信水平。
  • 通过提供相关且结构化的信息,帮助研究人员进行文献综述、深入挖掘大型数据集以及生成假设。

弥合鸿沟:从数据洞察到实时行动

如果我们了解数据与对其采取行动之间的鸿沟消失了呢?如果我们拥有的每一个洞察都能立即转化为行动呢?我们可以通过在LLM和RAG之上构建自主代理来实现这一点。这些系统创建了一个智能上下文层,让您的数据、业务逻辑和客户数据最终能够“说”同一种语言。

这种统一的理解使代理能够利用企业数据的全部深度——即之前被困在仪表盘中的万亿条记录和实时信号。结果是高度自主的代理,能够提供细致入微、业务特定的交互。这就是我们如何消除导致错失机会的滞后,确保每一次互动都在最关键的时刻由智能上下文驱动。