AI试点项目为何频频折戟？揭秘破局制胜之道AI项目失败常因安全摩擦、工作流孤立、可观测性不足和成本高昂。成功关键在于初期

AI项目失败常因安全摩擦、工作流孤立、可观测性不足和成本高昂。成功关键在于初期良好设置、多元团队、全栈可观测及持续监控。

译自：Why So Many AI Pilots Fail and How To Beat the Odds

作者：Julie Banfield

2025年中期，一份广为宣传的报告称，几乎所有AI试点项目都失败了。尽管围绕报告的失败率存在一些争议，但有些AI项目成功而另一些从未超出试点阶段，其原因显而易见。

根据我的经验，AI项目成败的关键，很大程度上取决于它从一开始就如何设置，以识别和解决可能阻碍成功的重大运营挑战。

理想世界

设想一下开发AI应用的理想环境是怎样的：你将拥有丰富的资源，首先是一个专门的、多元化的、完整的、无竖井的团队，足以试点、开发和发布一个AI应用。

从一开始，你就会优化可观测性，以便持续监控整个系统。你还会与安全团队协作，建立安全检查和制衡机制。

你会确保所有工作都在一个流水线中运行，并且每个新的AI项目都通过相同的流水线，从而实现可重复性，并更容易地适应为保护应用及其用户而设置的任何护栏。

在这个理想世界中，你将拥有所需的一切，帮助你在工作流程差距成为问题之前识别并弥补它们。开发过程将不再被停止/启动的关卡所阻碍；它将成为一个持续的循环，从试点到开发再到生产，使你的AI产品能够更快地推出。

听起来很田园诗般，对吧？但在现实世界中，你能将这些付诸实践吗？

开发和部署AI软件的团队面临巨大挑战，尤其是在从内部测试转向应用生产和扩展时。由于AI本质上是概率性的，开发者无法考虑到所有可能的边缘情况。引入多样化的外部数据集和变量常常导致AI软件“崩溃”。

无论是开发基于聊天的AI系统、在幕后运行的代理、算法还是高级分析工具，应用程序都会在不同数据集中寻找模式并建立关联。在基于聊天的系统中，AI将自然语言转换为机器可读的格式进行分析，然后将结果翻译回人类用户。

标准的软件开发生命周期（经典的“测试、重复和构建”DevOps循环）在AI系统中会更加复杂。这部分是由于新的AI驱动的需求，例如数据准备、模型审计、性能测试和模型再训练。

开发AI的一个主要障碍是安全摩擦，这主要源于对AI或第三方可能如何使用其数据的不信任。公司希望确保AI没有使用他们的数据进行训练，并且他们的数据不会被窃取或存储在AI使用的外部服务器上。

为了管理这些风险，公司实施了许多安全护栏，以防止AI被用于恶意目的，例如窃取数据或引入偏见。然而，将AI产品通过这些广泛的护栏和检查点所需的时间减缓了整个过程。由于技术发展迅速，AI产品在获得批准时可能已经过时。

企业尝试防止数据窃取的一种方法是建立内部AI政策，限制第三方AI工具的使用。许多企业尝试为员工构建和维护（并频繁再训练）等效的内部工具，但可能使用性能较低的模型。但如果这些工具无法满足用户需求，“影子AI”（即员工掩盖公司数据以便使用被禁止的外部系统）无论如何都会悄悄进入企业。

团队就像一位家长，设定界限并利用自动化引导AI在其从环境中学习时回到预定路径。

遵守不同的监管和治理要求是另一个潜在障碍。从要求在欧盟生成的数据必须留在该区域的数据主权规则，到遵守像欧盟AI法案这样的严格法规，拥有全球业务的公司可能需要为不同区域创建不同的工作流程。

许多AI开发工作流程是高度竖井化的。团队成员分散，包括前端、后端和数据工程师，以及数据科学家、AI工程师和研究人员。我见过AI和数据科学团队构建模型后，“一扔了之”给开发团队进行产品集成，然后转向下一个项目。

然而，随着模型的漂移和数据的变化，AI系统可能会朝着错误的方向发展。例如，与传统的静态软件不同，AI是有机变化的；它会随着学习而改变和演进。这可能导致意想不到的行为，例如AI决定将用户界面（UI）按钮移动到界面的右下角，或者在尝试利用新知识提高性能时破坏既有的自动化。

解决这些工作流差距的一个方法是创建一个新型团队，通过收集模型漂移、置信区间和用户反馈等可观测性指标来持续维护和监控模型。在需要时，该团队会将模型拉回、再训练，甚至在模型退化严重时将其移除。团队就像一位家长，设定界限并利用自动化引导AI在其从环境中学习时回到预定路径。

可观测性对于管理和维护复杂的AI系统至关重要。你关注的可观测性指标可能因AI应用的类型而异。

对于聊天机器人，关键指标包括：

对于预测模型，你需要衡量：

运行AI的成本非常高。而由于不受控制的云计算、AI技能招聘或培训以及模型膨胀等因素，成本可能会飙升。

如果AI响应需要五分钟，那么用户自己完成任务或使用传统自动化可能会更快。

基础设施是另一个限制因素。在本地和气隙环境中运营的公司必须自行采购GPU。由于使用量通常按用户计算，扩展到拥有1000名员工的组织会迅速变得昂贵。解决方案包括使用在更少GPU上运行的较小型模型（如Mistral Small），或复杂的虚拟LLM技术来优化并行处理。

另外，公司可以使用Google的Vertex AI、IBM的watsonx或Amazon Bedrock等云基础设施，依靠提供商管理GPU，并按令牌支付基于消耗的费用。

大多数AI应用似乎都依赖少数主要AI参与者（例如OpenAI或Anthropic）提供其底层推理堆栈，这限制了你对定价的控制能力。

你还必须不断应对不断上涨的技术成本和用户期望——如果AI响应需要五分钟，那么用户自己完成任务或使用传统自动化可能会更快。

我在引言中描述的理想世界，即拥有几乎无限资源来开发AI应用的世界，是难以实现的。但这并不意味着你无法将其中一些付诸实践，以克服现实世界的局限。

成功的核心是全栈可观测性——由代理AI驱动，持续监控系统，了解正在发生什么，并在问题出现之前纠正它们。如需更多见解，请获取DevOps团队全栈可观测性指南。