LLMOps：生产环境下的大语言模型管理——大语言模型简介大语言模型（LLMs）之所以流行并非偶然；它们正在彻底改变我

大语言模型（LLMs）之所以流行并非偶然；它们正在彻底改变我们与技术的交互方式，并不断推动机器学习模型能力的边界。

但问题也随之而来：虽然这些模型令人惊艳，要将它们规模化并部署到生产环境中绝非易事。从科研原型到成熟、可靠的工具，这中间充满了挑战。我们需要应对巨大的计算资源需求、复杂的数据管理任务，还要确保无论是自建部署还是使用第三方模型，一切都能高效、安全地运行。

在深入探讨 LLM 运维细节之前，了解这些模型为何以及如何诞生非常重要。掌握它们的发展脉络，有助于我们理解在生产环境中预测其行为为何如此困难。

LLM 的演进过程是一系列渐进式创新的成果，每一步都在解决前一代模型的局限。早期模型能力有限，即便是完成最基本的任务也需要大量人工干预。随着模型架构的进步（如从循环神经网络 RNN 向 Transformer 转变），以及模型规模的大幅扩展，LLMs 变得越来越复杂与强大。这一演变也带来了新的挑战，比如海量数据的处理，以及高效训练流程的构建。

好了，让我们开始正式的探索。

一些关键术语

在深入之前，我们先澄清三个经常被混淆的重要术语：

基础模型（Foundation Models）

基础模型是先进的机器学习架构，作为构建专用模型的“地基”。它们通常在海量数据集上进行预训练，这些数据集最初以文本为主，近年来也逐渐包含了代码、图像、音频和视频等多模态数据，以训练出具备通用语言理解和模式识别能力的模型。这些模型从训练数据中学习到统计关系和语言结构，成为后续微调的坚实起点。通过微调，这些模型可以被定制用于具体任务，如驱动LLMs或其他AI应用。

大语言模型（Large Language Models）

大语言模型是基础模型的一种专门实现，通常通过进一步训练或微调，使其在语言任务上表现更佳。这些模型通过分析并模拟自然语言的模式，来预测和生成类人文本。LLMs 拥有极强的泛化能力，可应用于多种自然语言处理（NLP）任务，如文本生成、情感分析、语言翻译、问答系统等。常见的应用场景包括聊天机器人、内容创作、多语言交流、数据分析、代码生成、推荐系统和虚拟助理等。我们将在“LLM 的企业应用场景”一章中更详细地介绍这些用途。

生成式 AI 模型（Generative AI Models）

生成式 AI（简称 GenAI）是指专注于“生成内容”（如图像、文本、音频或视频）的基础模型。这类模型根据训练中学到的模式和信息生成新内容。最早的生成式 AI 模型包括 2018 年问世的生成对抗网络（GAN），近年则涌现出扩散模型、LLMs 以及多模态模型（如 Gemini）。由于 LLM 本质上具备生成能力，因此也被视为生成式 AI 模型的子类。在 LLM 场景中，生成式 AI 能生成文本回复、创意故事、产品描述等内容。

需要注意的是，这三个术语经常被交叉使用，甚至被混用。例如，图像生成模型 DALL·E 实际上更应归类为生成式 AI 模型，而不是 LLM。但最近，DALL·E 的图像生成功能已经被集成到 ChatGPT 这一 LLM 应用中。因此，如今我们可以通过 ChatGPT 等大语言模型请求生成图像。随着时间的推移，人们的语言表达也在逐渐演化，为了简化起见，越来越多的人开始将这些模型统称为“AI模型”。

Transformer模型

Transformer模型由论文《Attention Is All You Need》首次提出，标志着我们处理序列任务方式的一次重大变革。Transformer为处理语言数据设立了新的标准。

在Transformer出现之前，NLP任务中最流行的解决方案是循环神经网络（RNN）。RNN按顺序逐步处理数据，适合处理时间相关的数据，如文本。然而，这种顺序处理带来了一个显著缺陷：随着序列的推进，RNN经常难以保留较早步骤的信息，尤其是对于较长的输入。

在神经网络训练过程中，模型处理输入数据并生成预测结果。通过损失函数，将预测与正确答案进行比较，计算误差（预测与真实结果的差距）。反向传播算法计算梯度，指导模型参数（权重和偏置）如何调整，以减少误差并提升准确性。

然而，对于像RNN处理的长序列，梯度在反向传播过程中被多次乘积后往往变得非常小，最终可能缩小到计算机视为零的程度，导致模型学习停止，这就是著名的梯度消失问题，使得模型难以捕捉长期依赖关系。

相比之下，Transformer通过自注意力机制和并行处理克服了这一限制，使其更高效地处理序列并有效捕获长距离依赖。Transformer不再一步步顺序处理数据，而是同时分析所有输入的token（例如句子中的单词）。自注意力机制允许序列中的每个词或token关注同序列中的其他词，无论它们相距多远。具体做法是计算一组注意力权重，衡量序列中每个token与其他token的相关性。例如，在一句话中，自注意力可以帮助代词“it”准确对应其指代的对象，即使那个对象在几词之外。这样，模型可以对输入中每个token相对于其他token的重要性进行加权，进而高效捕获整个输入序列中的关联关系。并行处理不仅加速了计算，也避免了顺序处理中的梯度消失问题。

由于能够处理长距离依赖和海量数据，基于Transformer的模型在多种NLP任务中表现出色，包括机器翻译、文本摘要和问答系统。它们能聚焦序列中不同部分，无论距离远近，同时利用位置编码保持序列顺序，从而处理长序列时不丢失上下文信息。

有人提出，“既然现在可以更好地扩展模型规模，不如给这些模型投入更多算力和数据，看看效果如何？”像GPT-3、LLaMA及其后续模型表明，增加参数量能显著提升Transformer模型的性能。

Transformer的影响也超越了NLP，进入了图像处理领域。比如视觉Transformer（ViT）将图像切分成多个patch，并将其视为序列输入Transformer模型。ViT在图像分类任务中表现优异，是卷积神经网络（CNN）的有效替代方案。此外，在推荐系统中，Transformer对复杂模式和依赖关系的建模能力提升了准确率和个性化水平。下表对比了我们讨论过的几种神经网络模型的能力：

	CNNs	RNNs	Transformers
应用	适合空间任务（如图像）	适合序列任务（如NLP）	适合处理图像、NLP和语音等多模态任务
计算方式	高度并行化输入处理	顺序处理	并行处理输入
语言任务表现	需大量卷积层才能捕获长距离依赖	能较好处理长距离依赖，但仅限于一定长度	能很好处理长到超长距离依赖
可扩展性	可扩展	可扩展性有限	高度可扩展
数据需求	小数据集表现良好	小数据集表现良好	对小数据集效果不佳
训练难度	容易训练和调优	比CNN难调优	训练和调优难度大
可解释性	易调试	难调试	难调试
部署	容易部署	容易部署	部署难度大
适合边缘设备	表现良好	表现良好	对边缘设备支持有限
可解释性	支持多种解释方法	解释性有限	解释性极其有限

将更多算力和数据投入Transformer，推动了LLM的发展，也促成了模型从单一模态向多模态泛化的转变。理解这一演进，有助于我们更好地理解不同模型架构间的差异。

大语言模型（LLMs）

大语言模型擅长理解上下文，并能在词语、短语和概念之间建立关联，从而根据输入的查询或提示提供相关信息。与依赖人工整理的结构化知识库不同，LLMs能够自动从非结构化文本中提取知识。通过在多样化的文本资源上训练，模型可以在无需显式人工干预的情况下处理海量信息。但这也带来了挑战，因为模型可能从训练数据中学到带有偏见或错误的信息。

LLMs还被设计成能够理解和生成类人文本，并通过自然语言查询在对话交互场景中提供便捷的访问。这使得它们在信息检索和响应生成方面既方便又用户友好。

这些模型之所以“庞大”，不仅因为它们训练所用的数据量巨大，更因为其参数数量庞大。可以把参数理解为模型内部的“调节旋钮”，训练时通过调整这些参数帮助模型更好地学习。在神经网络中，参数即权重和偏置。当模型接收到一个输入（如提示词）时，首先将其转换成数值表示，然后通过神经网络进行处理。神经网络中的每个节点包含一个偏置，用于对输入数值做加减操作，节点之间的连接包含权重，用于在数据传递时乘以输入值。增加参数数量极大地扩展了传统Transformer模型的能力，但这也带来了巨大的成本和评估复杂性。

LLMs基本可分为两类：判别式模型和生成式模型。判别式模型，如2018年推出的BERT（双向编码器表示Transformer），学习分类问题中类别的边界。它们关注条件概率P(y|x)，即给定输入x时输出y的概率。判别式Transformer模型通常用于文本分类、情感分析和命名实体识别等任务，其目标是根据输入文本预测标签或类别。

生成式模型，如GPT-3和GPT-4，则学习输入与输出的联合概率分布P(x, y)，能够生成与训练数据相似的新数据点。生成式模型主要用于文本生成任务，目标是生成与训练文本相似的新文本。并非所有LLMs都必须是生成式的，但大多数是如此。在本书中，提到“LLMs”时，默认指代生成式大语言模型。

大语言模型架构

语言模型主要有两种架构类型：编码器（Encoder）和解码器（Decoder）。编码器和解码器也可以组合使用，且针对新架构的研究仍在持续。

编码器（Encoder-Only）模型

编码器模型专注于处理和理解输入文本，将其转换为有意义的表示或嵌入向量。嵌入是词语、短语或句子的高维数值表示，能够捕捉语义和上下文，使得语义或上下文相近的词在向量空间中相互接近。这种表示方式能抓取输入的核心信息，适用于需要深刻理解上下文的任务。

编码器模型的典型代表是BERT。在预训练阶段，BERT采用掩码语言模型（Masked Language Modeling）技术，即随机遮蔽文本中的部分词汇，模型需基于上下文预测这些被遮蔽的词。此外，BERT还通过下一句预测（Next Sentence Prediction）训练模型判断两句是否逻辑相连。

编码器模型的主要优势在于其对文本句法关系的理解能力，擅长捕捉词与上下文间的复杂关联，适用于情感分析、命名实体识别和问答等任务。

但编码器模型存在局限，它们不具备文本生成能力，专注于理解和分析输入文本，这限制了其在需要文本生成或补全的应用中的使用。

解码器（Decoder-Only）模型

解码器模型擅长根据输入或提示生成连贯且语义相关的文本。代表架构有生成式预训练Transformer（GPT）系列，如GPT-2、GPT-3以及最新的GPT-4。

这类模型通过语言模型目标进行预训练，即学习根据前文上下文预测序列中的下一个词，从而能够生成自然流畅且保持连贯性的文本段落。

解码器模型的关键优势是生成高质量文本的能力，使其在文本补全、摘要和创意写作等任务中表现卓越。它们还表现出“涌现”特性，能在未经过专门微调的情况下执行诸如翻译和问答等任务。

然而，解码器模型专注于文本生成，这在需要深度理解输入文本的任务中可能成为限制。它们生成的文本基于训练时学到的模式，未必总能准确反映输入中的细微差异。

编码器-解码器（Encoder–Decoder）模型

编码器-解码器模型结合了编码器和解码器的优势，适合处理输入和输出序列结构与长度不一致的复杂映射任务。

在该架构中，编码器负责处理输入文本生成嵌入表示，解码器基于此嵌入生成输出文本。典型实例有BART（双向与自回归Transformer）和T5（文本到文本转换器）。BART于2019年推出，采用去噪自动编码（denoising auto-encoding）训练，即通过破坏输入文本的一部分，学习重构原文。

编码器-解码器架构在机器翻译、文本摘要等输入输出结构和长度差异较大的任务中表现优异。但其训练复杂度高，对计算资源需求大。双重架构要求两部分协同工作，对数据和算力均有较高要求。

状态空间（State Space）架构

一种新兴架构试图解决Transformer的一个问题：自注意力机制具有二次复杂度。也就是说，推理时所需计算量随着输入长度的平方增长（O(n²)，n为token数量），这在处理大规模数据时计算代价极高。

状态空间架构通过引入状态空间表示，建模系统状态而非每一步记录，压缩信息，从而实现线性复杂度，提升计算性能并降低内存需求，但代价是误差率增加。

研究者正致力于解决误差问题。最新例子如Mamba和Mamba-2，它们动态创建状态表示，试图通过状态空间参数建模提示中重要部分。在实验中，Mamba在小型和中型提示上性能可与参数量翻倍的Transformer模型匹敌，但在大型提示上仍未达到低误差率的承诺。

每种LLM架构各有优劣。编码器模型如BERT适合理解和分析文本，但不擅长生成内容；解码器模型如GPT系列擅长生成连贯文本，但在某些任务如文本分类中可能表现不确定；状态空间等新兴架构承诺在性能和适用性上有所提升，但尚未完全成熟。

小型语言模型（Small Language Models，SLMs）

近年来，另一项重要进展是小型语言模型（SLMs），它们是紧凑且高效的语言模型，旨在在使用比大语言模型（LLMs）更少计算资源的情况下完成自然语言处理任务。

与拥有数十亿参数、需要大量内存和计算能力的LLMs不同，SLMs通常设计为拥有百万甚至几十万参数。这样做的权衡是，它们必须专注于特定任务或领域。正因如此，SLMs体积轻巧、成本低廉，且能部署在更广泛的设备上，包括手机、物联网边缘设备，以及计算资源受限的环境中。SLMs的发展，源自对高效、可访问且能实时或离线运行的AI解决方案的需求，这些解决方案无需依赖云端基础设施。

SLMs在需要上下文理解、广泛记忆或推理能力的任务上表现不佳。它们并非用于通用问题解决，需要在特定数据集上进行微调，才能在特定任务上表现良好，在限定范围内实现效率和准确性的平衡。相比之下，LLMs通常能在多个领域较好地完成多种NLP任务，而SLMs则需要针对特定任务专门训练。例如，一个LLM可能在总结法律文档和医学文章时都表现尚可，而一个SLM则可能只在其中一项任务上表现出色，另一项则较差。

选择合适的大语言模型（LLM）

在LLM领域，最新突破和前沿技术层出不穷，很容易让人兴奋不已。新模型不断涌现。但事实是，选择合适的LLM不仅仅是一个技术决策，更是一项具有深远影响的战略选择。

选择LLM时需要考虑的因素

以下是选择模型时五个关键理由，说明为何选对模型至关重要：

与目标的契合度
你是希望选一个擅长生成类人文本的模型，还是需要一个能理解复杂查询并给出精准回答的模型？不同模型的能力差异巨大。有些专注于对话能力，有些则针对摘要或翻译等任务做了优化。选择契合你目标的模型，才能保证投资的工具真正满足你的需求。
性能与效率
并非所有LLM都相同。更大的模型虽然性能和效果出色，但通常伴随高昂的计算成本和响应延迟。较小且优化良好的模型往往更快且成本更低，但很少能达到大型模型的性能水平。
训练数据与偏见
训练数据决定了模型的行为和输出。训练数据的差异会导致模型在处理特定主题或问题时表现不同。有些模型会反映训练数据中的偏见，影响结果的准确性和公平性。选择训练数据多样且具有代表性的模型，有助于降低偏见风险，确保结果更加可靠和公正。
定制化与适应性
你的需求可能无法用通用LLM的“一刀切”方案满足。有些模型具备更强的定制化能力，支持微调和个性化配置。如果你需要灵活性，就选择具备强大定制能力的模型，以便更好地贴合具体场景。
集成与支持
将LLM集成到现有系统和工作流中是实务中不可忽视的部分。有些模型提供完善的支持和文档，集成过程更加顺畅、省时。另一些则需要更多配置和维护工作。考虑模型与基础设施的兼容性及支持水平，能帮助你节省时间，减少后期麻烦。

总体来看，选择LLM不仅是技术决策，更是影响AI项目成效、效率与成功率的战略决策。记住：你选的模型很重要。通过仔细评估需求、理解不同模型的优势和限制，你能做出符合目标的明智选择，为成功打下坚实基础。

大型争论：开源与专有大语言模型（LLMs）

企业在选择开源、闭源和开放权重（Open Weight）LLM时，必须应对复杂的抉择环境。图1-1展示了当前部分企业的选择情况。本节将探讨各选项的优缺点。

开源与开放权重大语言模型（LLMs）

开源模型和开放权重模型是目前AI社区中备受关注的两类公开可用的LLM，特别适合那些希望自定义、部署或研究先进AI而不依赖专有方案的用户。

开源LLMs指的是其底层源代码完全公开的模型，任何人都可以查看、修改，甚至重新分发模型及其架构。这类模型通常包含详细的架构设计、训练方法以及框架代码。使用开源模型带来技术透明和高度适应性，同时促进了社区协作。然而，开源模型可能有也可能没有预训练权重（即训练好的参数），这些权重是模型“知识”的体现，使模型无需从头训练即可在特定任务上发挥作用。若无预训练权重，企业可能需要自行准备训练数据并进行模型训练。

开放权重LLMs则指预训练权重公开可用的模型。用户获得权重后，可以直接部署模型以用于文本生成、摘要、翻译等实际应用，或者基于自身数据进行微调。虽然许多开放权重模型也是开源的，但部分模型（如Meta的Llama系列）对商业用途有限制，或需遵守特定许可证条款。

区分开源和开放权重模型对于判断模型“开箱即用”的便利性至关重要。没有权重的开源模型适合做架构实验和训练环境搭建，但缺乏直接的实用功能，且训练过程需要大量计算资源。相对而言，开放权重模型具备现成的使用能力，更适合没有大规模训练资源但希望微调或直接部署预训练模型的开发者。

通过使用开源和/或开放权重模型（如Llama或Mistral），企业可在现有硬件上部署模型，成本通常低于租用云端专有解决方案。这对预算有限的创业公司和中小企业尤为有利，节省的资金可用于微调等其他需求。

除了财务考量，企业可能还有其他需求，比如确保训练数据包含或排除特定数据集。在这种情况下，仅有开放权重模型是不够的，企业更需要开源模型。比如，企业希望确保模型从未见过某些敏感数据，而开放权重模型若不公开训练数据则无法提供此类保证。

社区支持是开源模型的另一大优势。开源生态的协作性质促使开发者、研究者和机构持续改进这些模型，经过微调的新模型可通过Hugging Face等平台轻松获取。企业不仅受益于集体智慧，还能使用更丰富的资源、工具和最佳实践。社区驱动的开发充满活力，常常孕育着最新进展。

但开源和开放权重策略也面临挑战。维护和支持是显著难题，数据隐私和安全尤为关键。透明度虽然是优势，但也可能带来风险，企业需付出大量努力保障敏感信息安全并遵守相关法规。确保模型不成为安全漏洞载体，需要严密关注和主动防范。

扩展性和性能也是考量因素。开源模型并非总是针对大规模部署优化，面对高强度业务时可能遇到性能瓶颈。将开源模型改造为企业级应用通常资源消耗大，工程投入高。

安全风险不可忽视。任何人都可即时使用、微调或修改预训练的开放权重模型，可能将其用于制造误导信息、生成逼真假内容，或开发网络钓鱼和社工攻击工具。由于训练数据往往包括公共和专有数据，模型有时可能无意间生成或泄露训练数据中的敏感或偏见信息，带来隐私风险。

此外，开源模型（含代码和架构蓝图）易受操控和滥用。恶意者可能植入有害代码或篡改模型以绕过安全机制，并伪装成正规软件传播。这导致企业可能无意中采用含有后门或带偏见、有害输出的模型。开源开发的去中心化特性意味着代码变更不一定经过严格安全审核，存在被利用的安全漏洞。应对这些风险需采用负责任的AI实践，包括严格代码审查、安全审计和明确使用政策，以降低风险同时促进开放协作。

在采用任何模型前，请仔细审核使用协议及合同限制。切勿构建商业应用后才发现该开源模型不允许商业使用。

专有闭源大语言模型（Closed-source LLMs）

另一端是闭源或专有的LLM，比如由领先科技巨头开发的模型。这些模型通常配备完善的支持和维护服务，包括专门的故障排查和性能优化协助。这样的支持体系确保问题能够被及时解决，让企业能够专注于核心业务，而不会因技术难题而分心。

闭源LLM通常针对大规模部署进行了优化，能够有效应对运营负载，因此常伴随性能保障。它们的性能基准通常反映出持续稳定的结果交付能力，这是对有高运营需求企业的关键因素。

闭源方案的主要限制之一是成本较高；另一个则是缺乏透明度，企业难以深入了解模型的内部工作机制。虽然这看似罕见，但想象一个场景：某商业LLM提供商在训练过程中意外使用了私密数据，你的应用依赖该模型，而部分用户通过某种方式让应用泄露了这些私密数据，最终引发法律诉讼。因此，我们建议在使用第三方LLM等信息服务时，务必充分了解相关的法律保护措施。

尽管存在这些缺点，企业目前仍愿意投入高额成本，期待未来通过投资生成式AI应用获得丰厚回报。

大语言模型（LLMs）的企业应用场景

LLMs正在变革众多行业的企业运营，从改变知识获取方式到提升自主智能体能力。它们通过以下几个核心应用领域发挥作用：知识检索、翻译、语音合成、推荐系统和自主智能体。

知识检索

长期以来，人们习惯使用搜索引擎获取信息，但随着数据量和复杂性的增加，传统搜索工具的局限性愈发明显。LLMs为信息访问和利用提供了全新范式。与依赖关键词匹配和排序算法的传统系统不同，LLMs采用对话式、个性化的检索方式。

用户可以与LLMs进行长时间对话，不再只是得到一串链接或文档列表，而是可以设置所需信息的语气、意图和结构。这将搜索体验从一次性事务转变为动态交流。例如，用户可以请求“以初学者的角度解释这个概念”，模型会给出既易懂又相关的个性化解答。

在数据检索方面，LLMs能提升生产力工具，比如集成Google和微软的办公套件。想象用自然语言查询电子表格提取洞见，或让文档自动总结重点内容，简化数据管理、提高信息可访问性。此外，LLMs还能集成企业内部系统，实现自动化常规任务和知识图谱构建，优化工作流程、提升组织效率。但在提升检索准确性和相关性的同时，需严格保障数据隐私和系统安全。

翻译

翻译是LLMs应用的另一个重要领域。传统机器翻译系统常因训练数据有限而难以处理某些语言，依赖统计方法。LLMs通过零样本（zero-shot）和少样本（few-shot）翻译能力改变了这一局面。零样本指模型无需示例即可翻译新语言，少样本则是在极少数据支持下表现良好。

这对训练数据稀缺的语言尤为重要。对全球化运营或内容制作企业来说，这降低了本地化内容的门槛，比如电影字幕或营销资料翻译，无需大量初期投入即可拓展新市场。

基于多语言数据集训练的LLMs能快速适应更多语言，实现更广泛的跨语种翻译，涵盖资源稀缺语言。应用场景包括文学、影视乃至实时交流，其中准确且符合语境的翻译极具价值。

不过，尽管LLMs在翻译上显著优于传统方法，准确度保持和习语处理依然是挑战。

语音合成

生成让人感同身受的语音，极大提升用户体验和互动质量。语音合成（将文本转为模拟人声的音频）是LLMs进步显著的领域。过去语音合成系统生成的声音往往“机械感”强，不够自然。LLMs通过文本与音频数据训练，能理解并复现人声的细微差别，如语调、节奏和重音，推动该领域变革。

这在虚拟助手、游戏角色配音及教育音频内容制作中尤为有用。利用LLMs自动生成语音内容，企业可大规模生产音频，节省大量人工录制时间和成本。不过，语音合成仍有提升空间，尤其是对不同口音和语音变体的识别。

自主AI智能体（Autonomous AI Agents）

AI智能体被设计用来自主完成特定任务，借助大语言模型（LLMs）执行原本需要人工干预的复杂操作。

例如，在客户服务环境中，传统自动化智能体系统往往遵循固定脚本或基于简单规则逻辑。而基于LLM的AI智能体能够进行动态、具备上下文感知的对话。它们能更深入理解用户查询，更准确解析意图，并生成更自然、生动的回复。

在项目管理领域，LLMs可驱动智能项目助理，负责管理日程、设置提醒，甚至起草项目报告。这些AI智能体能够与团队成员互动，理解项目需求，并根据项目进展调整回应内容。

智能体系统（Agentic Systems）

智能体系统是LLM更为新颖的应用形式，不仅执行任务，还能做出战略决策。这些系统利用LLM的数据处理和分析能力，识别模式并实时做出明智决策。这在需要基于复杂、多维信息进行决策的环境中特别有用（如图1-2所示的示例工作流）。

在金融领域，智能体系统能够消化财务报告、新闻文章和市场分析等数据，进而分析市场趋势、评估风险因素，并根据投资策略提出投资建议。

同样，在供应链管理中，智能体系统可以基于销售预测、供应链中断、生产计划等多种数据来源，优化库存水平、预测需求波动，并协调物流运输。

然而，这些系统并非始终可靠。将其整合到现有工作流程中需要细致规划。企业必须考虑AI智能体与人类团队的协作方式、管理机制，以及对其输出结果的监控。明确的指导原则和监管机制对于确保这些系统能够辅助而非干扰现有业务至关重要。这些问题将在第8章中详细讨论。

数据安全和隐私同样是重大关切。LLMs处理大量敏感信息，保护其免受泄露或滥用是关键。需要建立完善的数据治理政策，并投入安全防护措施以防范潜在风险。这些内容也将在第8章中涉及。

使用大语言模型（LLMs）面临的十大挑战

LLMs引入了许多新的挑战，这些挑战因LLMs庞大的规模及其广泛的应用而更加复杂。解决这些问题对LLM的生产环境集成和部署至关重要。以下列出了十大挑战，并指明本书相关章节中对此的讨论。

规模与复杂度
LLMs通常拥有数百万乃至数十亿参数，导致训练、监控和评估极其复杂。此外，作为生成模型，它们可能无声失效，产生幻觉或不准确的信息。应对这一问题需采用结构化方法，除了常见的机器学习基准外，还需多种技术手段，详见第7章。
训练规模与周期
训练LLMs需处理庞大数据集，涉及数据管理以及训练所需的内存和计算资源问题，详见第3章。
训练周期可长达数天、数周甚至数月，且在大型GPU/TPU集群上进行并行与分布式训练需要专业硬件和组织能力，硬件依赖外部资源及市场供应，需系统规划，详见第9章。
大规模且可能包含敏感信息的数据集需严格安全和匿名化措施，详见第2章。
提示词工程（Prompt Engineering）
针对特定问题优化LLM表现的常用方法是提示词工程，即设计输入文本的科学与艺术。提示词调整能显著提升或降低用户体验。但提示词工程是迭代过程，难以掌握和文档化，尤其针对闭源模型。详见第5章。
专有模型（如OpenAI GPT-4）更新可能导致模型漂移，同样输入出现不同输出，修复需大量投入。若提示词链复杂且相互依赖（如自动化协调框架），模型更新会导致链条崩溃，难以检测。基于提示词的基础设施需强化监控，第7章深入讲解。
推理延迟与吞吐量
LLM的输出称为推理，许多应用需实时或近实时响应，优化响应速度尤为重要。动态模型带来复杂性，无权访问模型参数增加LLMOps团队负担。物联网边缘设备因计算资源有限、网络条件波动，更加挑战重重。详见第9章。
伦理考量
LLMs根据训练数据生成结果。因其聊天式体验接近人类，用户范围广泛，训练数据中的偏见可能对结果产生重大影响。
第7章讨论了LLM输出的监控技术，第8章讲解隐私与伦理问题。
资源扩展与编排
LLM的运行规模通常需负载均衡和动态资源扩展。不同专有模型根据使用场景表现差异大，持续的场景建模耗时且成本高。第5章探讨了分布式多模型环境中组件依赖管理，保障可靠性与扩展性。
集成与工具链
LLMs需多种新集成与工具链，适配生成式和判别式应用，涉及多种API通信。集成至现有系统需强大安全协议防止漏洞和滥用。第8章讨论模型变更和版本管理，涉及全栈兼容性问题。
广泛的适用性
LLMs具有高度适应性和易用性，这意味着它们可以应用于众多面向消费者的场景，如第3章所述。这也使得它们比传统机器学习系统更容易暴露于未经测试的场景中，因此需要更快速的反馈机制来监控和改进性能。第7章将介绍相关的监控技术。
隐私与安全
实时信息采集涉及处理用户数据，有时包括个人身份信息（PII）。因此，安全和隐私成为维护用户信任和遵守法规的基石。这一挑战远超推理监控，涉及网络安全领域。
即便是像OpenAI这样的公司，也曾出现数据库泄露事件，导致未经授权的用户能够看到聊天内容。第8章将对隐私和安全做更深入的讨论。
此外，定期对内部和外部的数据管理流程进行审计，对于增强用户信任和符合法律要求也至关重要。第4章将介绍数据管理的最佳实践。
成本
LLMs面临的最大考量之一是成本，包括短期和长期成本。虽然大多数Transformer模型的训练费用高昂，但维护和扩展LLMs在推理阶段的成本尤其突出。即使是失败的请求，也可能产生费用，因此对于使用闭源专有模型的企业来说，进行性能试验的成本可能迅速攀升。
即使是开源模型，过度微调也可能导致过拟合现象，即模型在训练集上表现极佳，但无法推广到真实用户提供的未见数据。模型的泛化能力和成本之间总存在权衡，第5章对此进行探讨。

结语

采用大语言模型（LLMs）需要谨慎考量与战略规划，以应对这些复杂挑战。组织必须建立一门新学科并配备一套新工具，才能获得成功。我们将这门学科称为LLMOps，接下来一章将从定义开始，带领大家踏上这段旅程。

参考文献

Dao, Tri, 和 Albert Gu. “Transformers Are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”，arXiv，2024年5月31日。
Devlin, Jacob 等人. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding”，arXiv，2019年5月24日。
Haptik. 无日期. “A Comprehensive Guide to Agentic AI”，访问日期2025年5月21日。
OpenAI. “March 20 ChatGPT Outage: Here’s What Happened”，2023年3月24日。
Vaswani, Ashish 等人. “Attention Is All You Need”，发表于 NIPS’17：第31届神经信息处理系统国际会议论文集，编辑 Ulrike von Luxburg、Isabelle Guyon、Samy Bengio、Hanna Wallach 和 Rob Fergus（Curran Associates，2017年）。
Wang, Sarah 和 Shangda Xu. “16 Changes to the Way Enterprises Are Building and Buying Generative AI”，Andreessen Horowitz，2024年3月21日。

LLMOps： 生产环境下的大语言模型管理——大语言模型简介