文章探讨了生成式 AI 在数据分析中的应用,强调了高质量数据基础设施的重要性。通过构建统一的数据层和内部训练 LLM,企业可以实现自助分析,提高效率并保持数据主权。一个金融科技公司的案例展示了如何通过整合结构化和非结构化数据,利用 Snowflake Cortex AI 创建自然语言界面,从而改变业务用户与数据的交互方式。
译自:Your AI Chatbot Is Only as Smart as Your Data Architecture
作者:Michel Tricot
我已经在数据移动领域工作了近二十年,我见证了我们利用数据来发现洞察并做出明智决策的方式发生的巨大变化。从机器学习到生成式 AI (GenAI),我们迅速提高了利用数据进行创新的能力。然而,与此同时,尽管拥有强大的 AI 能力,组织仍然难以构建能够有效扩展的应用程序。原因是生成式 AI 的质量取决于其摄取的数据质量。
为了说明我的观点,我想研究一个可以通过成功实施生成式 AI 和强大的数据基础设施来解决的实际业务案例。
分析瓶颈拖慢团队速度
随着销售、营销、财务和运营领导层都向集中式数据团队提交请求,问题可能会呈指数级增长。许多组织试图通过为团队分配嵌入式数据分析师来解决这个问题。但这种方法会增加成本,而且通常难以实施,因为很难找到具有适合该角色的领域经验的专家。
这种分析瓶颈会产生多种问题,影响整体运营效率。业务团队经常在等待数据分析时推迟关键决策,这会阻碍创新并削弱竞争优势。此外,他们无法自由探索数据并利用其业务知识来发现数据团队可能无法单独发现的见解。其他风险包括团队之间分析不一致,不同的 KPI 可能会导致组织内部的混乱。
这根本不是有效利用数据团队的时间。而且有更好的方法。
AI 驱动的自助分析的承诺
生成式 AI 为这一挑战提供了一个引人注目的解决方案。想象一下,一位营销经理在聊天机器人中输入一个问题,例如“与上个季度相比,销售额如何?”,并立即收到包含相关指标和可视化的回复。无需 JIRA 工单,即可获得即时洞察。
随着生成式 AI 的出现,这种解决方案现在对许多企业来说是可行的。利用 LLM 的会话式分析平台可以解释自然语言问题并将其转换为 SQL 查询。通过这些查询,他们可以轻松提取指标并生成相关的数据可视化。这更像是与数据分析师合作,而不是在终端中编写无休止的查询。
有效的自助分析始于底层
真正有效的自助分析解决方案始于统一的数据基础。在 LLM 能够回答有关您业务的问题之前,它需要访问一个全面的、结构良好的数据层。无论 LLM 的实施多么复杂,在多个系统中拥有孤立数据的组织都将难以实施有效的自助分析。
现代商业智能还需要超越传统的结构化数据。虽然分析曾经主要侧重于表格中的数字,但今天的解决方案必须包含会议记录、客户反馈,甚至包括图像和视频等富媒体。强大的数据基础设施必须无缝地处理这两种数据类型,创建一个统一的层,无论原始格式如何,LLM 都可以查询该层。
维护数据主权并保持竞争力
当组织探索用于分析的生成式 AI 时,许多组织会转向需要将专有数据发送给外部提供商的第三方解决方案。但这绝不是一笔好交易。
您的数据不仅仅是过去活动的记录;它代表着您的竞争优势。客户行为、产品性能指标和运营模式包含着独特的见解,这些见解使您的业务与众不同。当您将这些第一方数据暴露给外部系统时,您可能会面临暴露知识产权的风险,因为您独特的业务模式可能会为竞争对手提供信息。您还面临监管合规性问题,因为数据治理要求可能会禁止特定数据离开您的控制范围。
最复杂的实施现在正在使用内部数据训练定制 LLM,创建特定领域的模型,这些模型了解组织独特的术语、指标和业务规则,而不会将敏感信息暴露给第三方。
一个真实的例子
一家北美金融科技公司以精简的数据团队运营,并且拥有一项不断增长的业务,需要越来越多的洞察力。他们没有预算来扩大团队,因此他们决定构建一个自助式分析聊天机器人。
他们的基础设施集成了来自 Microsoft SQL 数据库的结构化数据和来自 Azure Blob 和 Amazon S3 等云存储服务的非结构化数据。所有这些数据都存储在 Snowflake 云数据仓库中,从而创建了一个单一的事实来源。通过将其云数据仓库连接到 Snowflake Cortex AI,该公司创建了一个自然语言界面,从而改变了业务用户与数据交互的方式。员工可以通过自然语言直接向数据提问并立即获得洞察。
该公司的高级领导层很早就认识到,需要将数据存储在一个统一的层中,同时包含结构化和非结构化来源,以便为聊天机器人提供真实的上下文。上下文需要所有数据和元数据以适当的组织形式存储和访问在一起,以便 LLM 拥有正确的知识来做出决策并准备洞察。
如果没有该公司对基础设施的投资,聊天机器人将不可靠,而没有可靠性,AI 就会失去信任。
投资基础设施以实现长期成功
虽然生成式 AI 以其理解和生成人类语言的能力赢得了人们的想象,但自助分析的成功最终取决于底层数据的质量、完整性和可访问性。
通过构建在坚实的数据基础上并保持对专有信息的控制,企业可以在不损害安全性或准确性的情况下兑现民主化分析的承诺。这会将数据从瓶颈资源转变为真正的竞争优势。