文章讨论了企业应用大型语言模型(LLM)时,为了确保其可信度和价值,需要实施LLMOps框架。该框架包含四个支柱:实施清晰的边界、控制访问并定义用例、定期测试以防止数据漂移、使用实时可用性监控性能。强调了明确的保障措施和策略对于确保LLM提供最佳价值至关重要。
译自:The 4 Pillars of Successful LLMOps
作者:João Freitas
随着企业寻求释放新的生产力提升,人工智能的应用正在激增。根据 麦肯锡公司 的数据,78% 的企业决策者表示他们的组织在至少一项业务职能中使用人工智能。
这一转变的前沿是 大型语言模型 (LLM) 的采用。 越来越多的组织正在使用第三方 LLM,例如 GPT 和 Claude,以协助数据分析和内容创建等任务,而无需通过采用自己的模型来耗费大量资金。 随着对人工智能的批准和未经批准的使用量激增,LLM 迅速成为业务关键型系统。
对 LLM 产生依赖的一个后果是,组织必须确保其持续的可信度。 如果没有足够的监督,LLM 可能会生成基于过时或有偏差的训练数据的内容,从而损害客户信任或损害品牌声誉。
为了抵消数据漂移可能造成的有害影响,组织必须引入 LLM 运维 (LLMOps) 框架。 这些标准化的流程将应对 LLM 在企业环境中带来的挑战,并以四个支柱为例:
1. 实施清晰的边界
LLMOps 的第一步是设定 LLM 使用的核心目标。
LLM 必须远离高风险的决策。 诸如定价策略、招聘或法律咨询等敏感任务应留给人工来做最终决定。 即使是最先进的微调模型也可能产生幻觉、遗漏上下文或包含偏差,这些偏差在造成问题之前不会被注意到。
内部专家还可以根据业务领域对模型进行微调,或者制定最佳上下文工程的指南。 通过更加强调某些指令或限制,开发人员可以引导响应的准确性和平衡性。 权衡正确的 token 或指令可以减少响应的歧义,并避免诸如过度自信的幻觉等常见陷阱。
2. 控制访问并定义用例
一旦正确的用法就位,必须对用户访问进行监管,并且用例的设置必须与公司政策保持一致。 并非每个员工都应该能够使用专有或敏感数据提示 LLM,尤其是在未经审查的第三方 LLM 的情况下。 分配用户权限可以提供安全保障,以防止员工意外暴露敏感信息或滥用模型。
与企业采用的任何工具一样,尽管 LLM 必须具有明确定义的批准用例,但我们也应该允许进行实验。 批准的用例与实验级别之间的平衡对于每个公司来说都会有所不同。
对客户数据等敏感业务信息的访问权限应仅限于那些需要访问权限的人员,以 降低数据泄露的风险。 如果没有明确的保障措施,团队可能会遇到与合规性相关的或伦理问题。
3. 定期测试以防止数据漂移
人们通常认为 LLM 将在其整个生命周期内继续提供一致的性能。 实际上,LLM 生成的输出会随着其训练数据变得过时而逐渐失去相关性,这一过程称为“数据漂移”。 一个极端的例子是使用过时的 ChatGPT 版本,例如 GPT-1,它仅根据 2018 年之前可用的训练数据提供答案。 在实践中,数据漂移不太明显,但它可能导致团队错误地使用不准确的输出。
对于组织而言,至关重要的是测试他们使用的 LLM 是否会随着时间的推移因数据变化而发生性能下降。 如果模型提供不准确的输出,则采用更新的模型或微调 LLM 以响应特定主题或领域可以进一步提高输出准确性,而无需对训练基础的专有模型进行重大投资。 这样可以确保模型与其环境中的数据保持一致,并提供额外的安全层以防止产生误导性输出。
4. 使用实时可用性监控性能
一旦 LLM 投入使用,开发人员必须持续监控其性能,以确保其满足他们的期望。 诸如高延迟等性能问题会严重损害 LLM 的响应能力,这在客户支持、实时聊天界面或事件解决等时间敏感型应用中尤其成问题。
跟踪延迟、token 使用情况和准确率等关键指标的监控仪表板是确保 LLM 保持高性能的关键。 当 LLM 响应时间持续超过定义的阈值时,自动警报可以标记问题,以防其影响最终用户。 补救措施包括审查上下文以确保响应的最佳路径、调整模型大小、扩展基础设施或缓存常见响应,以确保 LLM 的持续性能和稳定性。
人工智能成功的缺失环节
采用 LLM 只是等式的一部分。 如果没有明确的 LLMOps 策略,组织将面临性能问题、合规性失败和声誉损害的风险。 随着人工智能越来越嵌入到日常工作流程中,明确的保障措施和策略并非可选项。 它们对于确保 LLM 提供最佳价值至关重要。
通过将这四个支柱付诸实践,组织可以建立对其输出的信任,安全地扩展使用量并最大限度地提高其人工智能投资的回报。 最终,明确定义的 LLMOps 战略将把在人工智能领域处于领先地位的组织与落后的组织区分开来。