把大模型接上业务数据,要过几道关?

0 阅读7分钟

很多团队现在都在做同一件事:让用户用自然语言问业务数据。演示的时候效果不错,对话流畅,输出的结论措辞专业。但真正到了要给客户用、要和后台报表对数字的时候,问题就出来了——算出的数字对不上,重跑一次结果又变了。

这几乎是所有“大模型 + 数据分析”方案在落地时都会碰到的处境。背后的原因,不是模型不够聪明,而是每一层都有一道关没过。***


第一道关:大模型不该做计算

目前最常见的接入方式是这样的:用户提问,大模型调用数据接口,接口返回原始数据或简单聚合结果,然后大模型自己完成拼接和计算,最后给出结论。

问题就出在“大模型自己完成计算”这一步。

大模型处理语言是强项,但让它在返回的数据上做多表关联、跨时间段对比、多维聚合,它没有办法保证每次都算对。十次里有两次给出错误结论,在写作场景里用户顶多觉得奇怪,在面向客户的业务分析里,这两次错误足以摧毁用户对整套系统的信任。

过这道关的方法,是把职责切分清楚:大模型只负责理解用户在问什么,以及把结论转成可读的文字。所有的计算,交给数据 API 来完成。

大模型根据预先配置好的接口说明,判断要调用哪个接口、传入什么参数。数据 API 接收到参数后,在底层完成过滤、关联和聚合,返回给大模型的是已经算好的最终指标,而不是一堆原始数据。大模型不碰数字,它只负责把数字讲清楚。

数字准不准,由查询引擎和数据建模来保证。

第二道关:底层查询要足够

职责切分之后,压力转移到了数据 API 这一侧。

一次 AI 对话背后,往往会触发连续多次的查询请求。用户问一个关于市场份额的问题,Agent 可能要先查账号权限,再查整体指标,再按竞品维度拆分,再按时间段对比,每一步都是一次独立的数据调用。如果每次查询需要十几秒,叠加起来用户就要等很长时间。对话场景和报表页面不一样,用户没有耐心等待加载。

这对底层查询引擎的要求,比传统 BI 报表场景要高出不少。传统报表可以接受几秒的加载时间,但 Agent 需要的是在 TB 级数据上,多次并发查询都能稳定在亚秒到秒级响应。

Agent 天然具有灵活探索特性,用户提出一个原始查询请求后,Agent 往往需要多次迭代查询以最终完成,如此一来,对数据的并发度压力可能会成倍增加。

StarRocks 从设计之初就一直将高并发处理能力和低延迟响应速度作为核心追求目标,在 AI Agent 场景下,StarRocks 也在不断发展和完善:支持 Agent 多轮探索式查询的并发能力、更轻量的弹性部署、对实时数据更新的支持等。***


第三道关:数据本身要先理清

很多团队在推进 AI 数据能力的时候,会碰到一个绕不开的前置问题:自家的数据管道是分散的。

各个业务线各自维护数据,口径不统一,没有一个明确的取数出口。跨团队的分析高度依赖人工协调,新功能上线需要好几个团队同时配合。

在这种状态下,不管上层的 AI 分析做得多精细,底下的数据源本身就对不齐,得出的结论没有意义。

过这道关需要的是数据工程层面的整理:建立分层的统一数据湖,明确各层的职责边界,让所有下游系统从同一个出口取数。这件事做好之后,数据延迟会显著缩短,新功能的上线周期也会跟着压缩。

这不是 AI 技术的问题,但它是 AI 能力能否真正落地的前提。

第四道关:Agent 要看得懂业务语义

数据底座整理好了,职责切分做好了,查询也够快了,但在实际使用中,Agent 调用数据接口时仍然会犯一类特定的错误。

字段名叫“uv”,是去重用户数,还是某个特定时间窗口下的用户数,还是只统计了某个渠道的?“排名”是自然排名还是付费排名?这些业务含义,写在人的经验里,不在数据库的表结构里。

大模型在这里只能猜。猜对了没有问题,猜错了,传入的参数就偏了,算出来的指标自然也跟着偏。这类错误很隐蔽,不像明显的幻觉那么容易被发现,但积累下来对分析结果的可信度影响很大。

镜舟在这个方向上正在推进的思路,是把业务语义直接内嵌到数据库内部。让 Agent 在发起查询之前,就能读懂字段和指标在业务上的真实含义,而不是每次依赖 prompt 里临时补充的解释。语义沉淀在库里,而不是散落在各处的文档和注释里,Agent 调用出错的来源会从根本上减少一个。

第五道关:Agent 跑久了会“不记事”

多轮对话场景里有一个实际使用中很常见的问题:用户在对话前段建立的分析上下文,几轮之后就丢失了。

用户说“我想对比这三个竞品”,几轮问答之后,Agent 还在查数据,但已经不记得要做对比这件事了。这不完全是模型的问题,更多是在企业部署 Agent 时缺少配套的记忆管理机制。

哪些对话上下文要保留,哪些中间结论值得沉淀成可复用的经验,哪些历史调用模式可以帮助 Agent 下次更准确地理解同类问题:这些如果没有专门的机制来管理,就会随着上下文窗口的轮换一起消失。Agent 每次都从零开始,用得越久越累,而不是用得越久越顺手。

我们希望解决的,也是让 Agent 在企业环境里能够持续积累使用数据的经验。不只是会调用接口,而是随着时间的推移,对这家企业的业务理解越来越深,每次分析比上次更准确。


在探讨 AI 分析能力时,很多人都会产生这样的疑问:传统报表还有存在的必要吗?

固定报表和 AI 对话分析解决的不是同一类问题。报表解决的是日常对核心指标的查看需求,里面的指标随时可用,不仅稳定、响应速度快,而且成本低。

AI 对话分析解决的是,当你突然冒出一个新的问题时,它能及时给出答案,不需要提前进行繁琐的设置。不过,要想让AI对话分析发挥作用,底层的数据必须准确、全面。

传统报表并不会消失,它依然会以直观、稳定的特点存在于我们的工作中。只不过,未来的报表将不再完全由人工定制,而是会借助AI技术自动生成分析结果,然后固化成报表,人工参与的程度会逐渐降低。

对于我们来说,更重要的是要明确在实际业务中,哪些问题适合用报表解决,哪些问题适合借助 AI 对话分析来处理。