随着生成式AI模型的工具和服务日益普及,企业现在可以访问与竞争对手相同的基础模型。真正的差异化在于构建为您的业务高度定制的人工智能——这是竞争对手无法轻易复制的。尽管当今的基础模型具有广泛的知识和推理能力,但缺乏背景知识的智能仅仅是潜力。模型知道如何思考,但它不知道您如何思考、您的词汇、您的数据模式或您的行业限制。
构建深刻理解您业务的模型,取决于您如何使模型从您的数据和偏好中学习。模型通过一个逐步的过程来学习,这个过程反映了人类的学习:它们首先通过预训练获取一般性世界知识,然后通过监督微调获得专业知识,最后通过直接偏好优化等技术学习与特定偏好保持一致。在推理阶段,模型可以应用它们所学的一切到实际任务中,并且可以通过参数高效的方法持续适应,而无需重新训练整个基础模型。
这一学习历程涵盖了从预训练大规模基础模型到为其特定用例进行定制的全过程,而Amazon SageMaker AI现在提供了覆盖整个范围的能力。
在某中心re:Invent 2025大会上,某中心SageMaker AI宣布了重大进展,改变了组织进行模型定制和大规模训练的方法。这些新能力解决了两个长期存在的挑战:为基础模型进行特定用例定制所需的高复杂性和时间,以及导致数周训练进度中断的昂贵基础设施故障。
自2017年推出某中心SageMaker AI以来,我们一直致力于让不同技能水平的构建者都能进行人工智能开发。自推出以来,SageMaker AI已引入超过450项功能,持续消除阻碍创新的障碍。本文将探讨新的无服务器模型定制能力、弹性训练、无检查点训练以及无服务器MLflow如何共同作用,将您的人工智能开发从数月加速至数天。
具备高级强化学习的无服务器AI模型定制
某中心SageMaker AI中新的无服务器模型定制能力,将传统上长达数月的过程转变为几天之内的事。对于希望获得最高抽象级别的人工智能开发者,我们引入了人工智能代理引导的工作流程,使通过自然语言进行高级模型定制成为可能。
现在,您无需深厚的强化学习技术专业知识,只需用通俗易懂的语言描述您的业务目标。人工智能代理通过多轮对话来理解您的用例,然后生成一份全面的规范,包括数据集指南、评估标准、相关指标以及推荐模型,您的团队无需专业知识即可实施。
人工智能代理工作流支持监督微调、直接偏好优化、基于人工智能反馈的强化学习以及基于可验证奖励的强化学习。模型可以利用这些强化学习能力,从人类偏好和可验证的结果中学习,创建更符合您业务目标的人工智能。当真实世界数据有限时,您还可以生成合成数据,分析数据质量,并处理训练和评估以确保准确性和负责任的人工智能控制。这种方法完全是无服务器的,消除了基础设施的复杂性。
对于希望更多控制定制过程的人工智能开发者,SageMaker AI提供了一个具有内置最佳实践的直观界面。通过SageMaker Studio,您可以从包括某中心Nova、Meta的Llama、Qwen、DeepSeek和GPT-OSS在内的流行模型中选择,然后选择您偏好的定制技术。
自引导工作流在每一步都提供灵活性。您可以上传自己的数据集或从现有数据集中选择,配置超参数,并在使用LoRA进行参数高效微调或全量微调之间进行选择。该界面与新引入的MLflow功能集成,用于自动实验跟踪,让您可以通过单一界面了解训练进度和模型性能。
与人工智能代理方法类似,自引导定制也是完全无服务器的。SageMaker AI自动处理计算资源的配置、扩展和优化,因此您可以专注于模型开发而非基础设施管理。采用按token计费,您可以避免选择实例类型或管理集群的开销。
连接模型定制与预训练
虽然无服务器模型定制通过微调和强化学习加速了特定用例的开发,但组织也在业务的许多部分快速扩展生成式人工智能的应用。需要深厚领域专业知识或特定业务背景的应用程序,需要真正理解其专有知识、工作流程和独特需求的模型。提示工程和检索增强生成等技术对于许多用例效果良好,但在将专业知识嵌入模型核心理解方面存在根本性限制。当组织尝试仅使用其专有数据进行持续预训练以实现更深层次的定制时,通常会遇到灾难性遗忘问题,即模型在学习新内容时失去了其基础能力。
某中心SageMaker AI支持模型开发的完整范围,从具备高级强化学习的无服务器定制,到从早期检查点构建前沿模型。对于拥有专有数据、需要超越单纯定制所能提供的深度领域专业知识的模型的组织,我们最近引入了一项新功能,解决了传统方法的局限性,同时保留了基础模型的能力。
上周,我们推出了某中心Nova Forge。这项新服务通过某中心SageMaker AI提供,给予人工智能开发者使用某中心Nova构建自己前沿模型的机会。您可以使用Nova Forge在预训练、中期训练和后训练阶段的早期检查点开始模型开发——这意味着您可以在最佳阶段介入,而不是等到训练完成。您可以在SageMaker AI完全托管的基础设施上,使用经过验证的方案,在整个训练阶段将您的专有数据与某中心Nova的精选数据混合。与仅使用原始数据训练相比,这种数据混合方法显著减少了灾难性遗忘。这有助于保留基本技能,同时融入您的专业知识。Nova Forge是构建自己前沿模型最简单、最具成本效益的方式。
Nova Forge专为那些拥有专有或行业特定数据访问权限、希望构建真正理解其领域的人工智能的组织设计。
某研究机构正在使用某中心Nova Forge,通过将某中心Nova精选数据与其专有数据集相结合,构建行业特定的大语言模型。
用于大规模智能资源管理的弹性训练
对AI加速器的需求随着流量模式、完成实验释放资源以及新训练任务改变优先级而不断波动。传统的训练工作负载保持锁定在其初始计算分配中,无法利用空闲容量而无需人工干预——这个过程每周会消耗您数小时的工程时间。
某中心SageMaker HyperPod上的弹性训练改变了这种动态。训练任务现在可以根据计算资源的可用性自动扩展,吸收空闲的AI加速器并最大化基础设施利用率。当更高优先级的工作负载需要资源时,训练会优雅地缩减规模以继续使用较少的资源,而不是完全停止。
技术架构通过在扩展转换过程中保持全局批大小和学习率,来维持训练质量。无论当前规模如何,都能支持一致的收敛特性。SageMaker HyperPod训练操作员通过与Kubernetes控制平面的集成来协调扩展决策,持续监控集群状态。
开始使用很简单。新的弹性SageMaker HyperPod配方适用于公开可用的基础模型,无需更改代码——只需更新YAML配置以指定弹性策略。
某公司正在使用弹性训练来自动扩展工作负载并吸收空闲的GPU,解释说弹性训练“将使我们的工作负载能够自动扩展到吸收空闲的GPU,并无缝释放资源,所有这些都不会中断开发周期。最重要的是,它将节省我们手动重新配置任务以匹配可用计算资源的时间,我们可以将这些时间重新投入到创新中。”
通过无检查点训练最小化恢复停机时间
基础设施故障长期以来一直是大规模训练进程的敌人。持续数周的训练运行可能因单个节点故障而中断,迫使您从上一个检查点重新开始,浪费数小时甚至数天昂贵的GPU时间。传统的基于检查点的恢复涉及顺序阶段——作业终止和重启、进程发现和网络设置、检查点检索、GPU上下文重新初始化以及训练循环恢复。当发生故障时,整个集群必须等待每个阶段完成后训练才能恢复。
某中心SageMaker HyperPod上的无检查点训练消除了这个瓶颈。该系统在分布式集群上保持持续的模型状态保存,自动更换故障组件,并通过从健康的AI加速器对等传输模型状态来恢复训练。当发生基础设施故障时,恢复在几秒钟内完成,无需人工干预。
这意味着在拥有数千个AI加速器的集群规模上,训练吞吐率可达95%以上,即计算基础设施有高达95%的时间被积极用于训练任务。您现在可以专注于创新而非基础设施管理,将产品上市时间缩短数周。
某公司已经将无检查点训练集成到其流水线中,以消除手动检查点恢复。
无服务器MLflow:为每位AI开发者提供可观测性
无论是定制模型还是大规模训练,您都需要跟踪实验、观察行为和评估性能的能力。然而,管理MLflow基础设施传统上需要管理员持续维护和扩展跟踪服务器,做出复杂的容量规划决策,并为数据隔离部署单独的实例。这种基础设施负担分散了核心AI开发的资源。
某中心SageMaker AI现在提供了一项无服务器MLflow功能,消除了这种复杂性。您可以开始跟踪、比较和评估实验,而无需等待基础设施设置。MLflow动态扩展以满足苛刻且不可预测的模型开发任务的快速性能要求,然后在空闲时间缩减规模。
该功能原生与某中心SageMaker AI无服务器模型定制协同工作,因此您可以通过单一界面可视化正在进行的训练任务和评估。高级跟踪功能有助于快速识别工作流和多步应用程序中的错误或意外行为。团队可以使用MLflow提示注册表对提示进行版本控制、跟踪和在组织内重用,保持一致性并改善协作。
与SageMaker模型注册表的集成提供了无缝的模型治理,自动将在MLflow中注册的模型与生产生命周期同步。在模型达到所需的准确性和性能目标后,只需点击几下即可将其部署到SageMaker AI推理端点。
管理员可以通过使用资源访问管理器设置跨账户访问来简化跨组织边界的协作,从而提高生产力。无服务器MLflow功能不收取额外费用,并自动升级到MLflow的最新版本,让您无需维护窗口或迁移工作即可访问最新功能。
某野生动物保护协会正在使用新的无服务器功能来提高生产力并加速获取洞察。
加速各个层面的AI创新
这些公告不仅仅是单独的功能改进——它们建立了一个全面的人工智能模型开发系统,满足构建者在他们旅程中的任何位置。从自然语言引导的定制到自引导工作流,从智能资源管理到容错训练,从实验跟踪到生产部署,某中心SageMaker AI提供了将AI想法转化为生产现实的完整工具包。
开始使用
新的SageMaker AI模型定制和SageMaker HyperPod功能现已在其全球区域内提供。现有的SageMaker AI客户可以通过SageMaker AI控制台访问这些功能,新客户可以从某中心免费套餐开始使用。