SLM vs LLM:为何小型AI模型在商业中更具优势

4 阅读10分钟

大语言模型(LLM)适用于开放式消费领域,而小语言模型(SLM)更适合结构化的企业任务。SLM因其针对性训练和优化架构,在封闭式业务环境中提供更高的准确性、成本效益和可预测性。

译自:SLMs vs. LLMs: Why Smaller AI Models Win in Business

作者:Sean Falconer

企业级AI继承了消费级AI的模型,但对于大多数企业对企业(B2B)问题来说,这是错误的。

在消费级领域,生成式AI的吸引力在于其作为无所不知的博学者的角色。一个单一的界面可以写诗、调试代码、规划假期,并回答来自公共互联网的琐事。这在一个开放的世界中是有意义的,因为可能的问题范围是无限的,而且成功是主观的。

当AI必须处理用户可能提出的任何问题时,规模就成了策略。运行在尽可能多的计算资源上的万亿参数模型并非过剩,它们只是一个必要条件。

消费级AI与企业级AI的区别

大多数业务工作流并不存在于一个开放的世界中。它们在封闭系统中运行,具有明确的输入、显式的输出和严格的故障模式。发票要么被正确解析,要么就没有。支持工单要么被正确路由,要么就没有。这些不是对话性问题;它们是操作性问题,有效操作的空间是预先知道的,而且错误的成本是可衡量的。

将“大杂烩式”的大型语言模型(LLM)用于这些特定的业务功能,往往是规模上的不匹配。一个旨在回答任何问题的模型,很少是处理已知输入和预期输出任务的正确工具。对于法律合同条款分类或客户互动通话摘要等问题,优势来自于专注而非广度。小型语言模型(SLM)正是围绕这一约束设计的,提供符合工作形态的语言理解。

这些模型提供了自然语言的流畅智能,而无需通用巨头那样庞大的计算需求和高昂的成本。与过去面对错别字就会崩溃的僵硬、基于规则的系统不同,SLM足够灵活,可以处理人类语言的细微差别,同时仍能“适应特定用途”来完成手头的任务。通过用通用性换取精确性,它们提供了生产系统所需的可靠性、可预测性和控制力。

小型语言模型:封闭世界的智能

在技术层面,SLM使用更少的参数和更具针对性的训练数据。虽然像GPT-4这样的LLM以万亿参数存储广泛的通用知识,但SLM通常只有100万到200亿参数。这种“恰当大小”使模型能够将其神经能力集中于特定专业工作流所需的逻辑,而不是广泛网络中的无关数据。

它们的架构针对速度、效率和一致性进行了优化,而不是最大程度的泛化。结果是,模型能够理解语言,但仅限于重要的边界之内。

这种边界意识是SLM与缩减版LLM的区别所在。仅仅较少的参数数量并不能使模型适合企业使用。重要的是模型的容量与问题的形态保持一致。在封闭世界环境中,过度的通用性往往会损害准确性。模型有更多出错的方式。

最近的基准测试清楚地说明了这一点。

微软Phi-3这样的模型表明,紧凑、专用的系统在指令遵循、分类和结构化推理等受限任务上可以提供具有竞争力甚至在某些情况下更优的性能。在像大型多任务语言理解(MMLU)和MT-Bench这样的基准测试中,一旦任务空间定义明确,Phi-3的变体就能接近或匹敌更大的模型,这表明在有界环境中,额外的参数会产生递减的回报。

架构效率也起着关键作用。

例如,Mistral 7B采用分组查询注意力(grouped-query attention)和滑动窗口注意力(sliding window attention)等技术,以降低推理成本,同时在较长的输入上保持强大的性能。这些优化并非学术性的。在生产系统中,延迟、吞吐量和成本是首要考虑因素,它们直接转化为可部署性。

重点不是更大的模型不必要,而是一旦世界有界,准确性不会随规模线性增长。在这些情况下,考虑到约束构建的模型往往表现更好,正是因为它们具有更少的自由度。

现场证据:小模型何时胜过大模型

SLM的优势一旦嵌入到真实的企业工作流中就变得最清晰。在生产中,这些系统并非回答任意问题。它们在严格受限的流程中反复做出相同类型的决策。

医疗保健就是一个很好的例子。

临床工作流充满了通用模型经常误解的领域特定语言、缩写和隐含上下文。作为回应,像Innovaccer这样的公司已经部署了经过精心策划的临床数据而非开放网络训练的专用语言模型。这些系统在医疗保健特定查询上提供了更高的准确性,显著减少了幻觉,并且其摘要能够清晰地映射到下游的护理管理系统。

在情感分析、命名实体识别、分类和结构化摘要等常见的企业自然语言处理(NLP)任务中,这种模式重复出现。基准测试和生产部署一致表明,一旦任务空间有界且评估标准明确,额外的参数就会带来递减的回报。

金融和法律环境也表现出相同的动态。合同、风险报告和监管文件以自然语言撰写,但它们在严格的语义边界内运作。像“资产净值”、“可采购量”或特定司法管辖区的法律条款都有精确的含义,而通用模型经常会模糊这些含义。

实际上,公司部署直接在内部文档上训练的小型模型。研究发现,这些系统能产生更一致的条款分类,合规检查中的误报更少,并且响应时间足够快,可以直接集成到交易或审查流程中。在这里,一个快速、可预测、可验证和可重放的模型,往往比一个功能更强但不可靠的模型更有价值

AI封闭世界的经济学

在企业环境中,AI的经济效益受训练成本的影响较小,而更多地受规模化推理的影响。一旦模型被嵌入到生产工作流中,用于分类工单、提取字段或汇总通话,它每天可能会被调用数千甚至数百万次。届时,每次请求的成本、延迟和可变性比峰值能力更重要。推理成本占据了主要部分。

更小、专用模型的成本曲线是可预测的,因为它们的行为稳定且资源需求有界。它们可以部署在固定的基础设施上,横向扩展,并像其他任何生产服务一样进行推理。

已发布的LLM推理成本分析表明,一旦工作负载稳定且量大,自托管的小型模型可以比许多团队预期的更快地与基于API的大型模型达到成本对等,因为基础设施成本被摊销,边际推理成本趋于平坦。大型模型只有在深度、开放式推理至关重要时才能证明其成本是合理的。对于常规的分类、提取和摘要任务,额外的参数很少能带来更好的结果,但总是会导致更高的开销。

结果是,成本成为架构对齐的症状。当模型与问题形态匹配时,经济效益自然随之而来。如果模型不匹配,再多的定价优化也无法完全弥补。

SLM与LLM在企业系统中的协同工作方式

SLM和LLM之间的选择并非二元对立。最有效的企业系统将它们视为互补组件,各自在最适合的场景中运行。实际上,这通常采用级联或分层模型的形式。

在级联架构中,大多数请求首先由一个运行在数据附近的小型、低成本模型处理。第一遍处理涵盖了大部分工作:事件驱动工作流中的分类、提取、路由、摘要和验证。这些任务是高容量、对延迟敏感且定义明确的。当输入超出这些范围时,当需要更深层次的推理、跨领域综合或歧义不可避免时,请求会被升级到一个更大、功能更强的模型。

我们在Confluent的实际客户AI工作流中看到了相同的模式。在操作环境中,客户很少在关键路径中直接使用LLM。相反,他们使用低成本、高度专业的模型,如异常检测或预测,持续监控数据流并检测变化。只有当问题被识别出来后,他们才会调用更强大、更昂贵的模型来帮助解释问题发生的原因、关联信号或协助人类进行根本原因分析。昂贵的智能被保留在真正需要它的时刻。

这种分工同时带来了几个好处。

成本得到控制,因为重量级推理应用得很少。延迟得到改善,因为日常决策在本地快速处理。隐私和治理更容易管理,因为敏感数据保留在系统内。甚至环境影响也得到改善,因为最常见的操作依赖于高效模型。

为什么企业级AI需要与其世界相符的智能

消费级系统生活在一个开放的世界中。它们必须为任何情况做好准备,这就是为什么它们依赖于在海量数据上训练的庞大模型,并由尽可能多的计算资源支持。当目标是广度时,这种权衡是有意义的。

企业级系统则不同。它们在边界内运作。输入已知。输出受限。成功是可测量的,失败是有代价的。在这些封闭世界中,仅仅规模并不是优势。专业化才是。

这就是小型语言模型重要的原因。大型模型仍然扮演着重要角色,特别是在边缘领域,当问题模糊不清且需要综合时。但它们并非默认选择。

企业级AI的未来是理解其运作边界的模型。一旦你不再要求模型理解一切,它们就会更好地理解真正重要的事情。