学习 AutoML——什么是自动化机器学习?

0 阅读42分钟

当我刚进入机器学习领域时,构建一个模型意味着要花上好几天,有时对于复杂问题甚至会拖到好几周,去仔细选择和创建特征、调优超参数,并尝试不同的模型架构。本章将探讨 AutoML 正在如何改变这一现实。

在我的职业生涯中,我亲眼见证了这个领域的剧烈变化。机器学习已经存在了几十年,主要形式是监督学习,即在带标签数据上训练模型,用来预测未来结果。正如数据与分析领域最知名的人物之一 Thomas Davenport 所指出的,真正发生变化的是以下四个关键因素,它们共同为 AutoML 的出现创造了完美环境:

  • 机器学习在组织中的普及度不断提高
  • 使用多个、有时非常复杂的算法来创建更有效的模型
  • 自动化机器学习方法的出现,使整个组织内的机器学习流程更高效、更易使用
  • 计算成本大幅下降,使各种规模的组织都能在经济上承担大规模实验和超参数搜索

在我与各行业组织合作的过程中,我亲眼观察到:数据的激增,加上对越来越细粒度分析的需求,已经催生了对更复杂机器学习应用的需求。与此同时,合格数据科学家的供给仍然有限。Davenport 认识到了这一根本挑战:“数据和算法正在快速扩张,但人类能力,即使是定量专业人士和数据科学家的能力,并没有同步扩张。因此,自动化机器学习中的许多活动,或许是让分析能力供给满足需求的唯一方式。”

确实,过去十年机器学习的发展,可以用一个词概括:加速。过去我的团队需要几个月才能完成的机器学习项目,现在可以在几天甚至几小时内完成。这种速度提升并不是因为数据科学家数量增加了,而是因为机器学习中许多任务被自动化了,同时计算成本大幅下降,使大规模实验变得可行。

在本书中,我将探索这一转变,并回答一个重要问题:机器学习 pipeline 中到底有多少部分可以被有效自动化?随着 AutoML 技术不断进步,这个问题的答案也在不断演化,并对企业、研究人员和实践者都产生重要影响。

机器学习解决方案需求的增长

AI 和机器学习(ML)的采用,已经从小众实验发展为各行业的核心战略优先事项。根据 McKinsey 2024 年 State of AI 调查,超过一半的公司已经在至少一个职能中使用 AI。在另一项研究中,截至 2024 年,72%–78% 的组织报告称至少在一个业务职能中使用 AI,高于 2023 年的 55%。

在领先组织中,参与程度甚至更高:截至 2023 年,大约 90% 的顶级企业已经有活跃 AI 项目。切实收益推动了这种广泛热情;处于 AI 前沿的公司报告了显著更高的业务表现,例如收入增长达到同行的 1.5 倍,这表明 ML 解决方案可以在效率、客户洞察和创新方面释放竞争优势。

多个市场指标显示,对 ML 能力的需求正在快速上升。全球 AI 支出正以每年超过 35% 的速度增长,整体 AI 市场预计到 2030 年将超过 7300 亿美元。在具体行业中,投资轨迹尤其明显。例如,根据 Grand View Research 和 MarketsandMarkets 的数据,医疗健康领域的 AI 应用预计将从 2024 年约 150–270 亿美元增长到 2030 年的 1100–1880 亿美元,对应约 36%–39% 的复合年增长率(CAGR)。

NOTE

市场预测会因研究方法和覆盖范围不同而有所差异;这里的数字代表截至 2024 年的可信估计范围。

类似趋势也出现在金融领域,例如算法交易、风险建模和金融科技服务,以及制造业,例如预测性维护和质量控制,反映出对 ML 驱动解决方案的广泛需求。这种需求并不只存在于科技公司中;传统行业也越来越认识到,用 ML 利用自身数据,是保持竞争力的关键。

TIP

AutoML 细分市场预计将快速增长。根据 MarketsandMarkets(44.6%)、Mordor Intelligence(43.9%)和 Research and Markets(46.8%)的估计,其 CAGR 预计为 43%–49%,因为组织正在寻找可扩展的 ML 解决方案,而这些方案不需要庞大的专家团队。

关键在于,组织不仅仅是在实验,它们正在寻求大规模运营化 ML。多数企业(72%)报告称已经将 AI 集成到日常流程中,并且大多数计划进一步增加 AI 投资。然而,从零开始构建定制 ML 模型可能缓慢且昂贵,因此组织开始关注更高效的方案。一项制造业研究发现,使用现成分析和 ML 工具获得的 median ROI 为 140%,显著高于完全定制构建模型的 104% ROI。换句话说,企业可以通过采用现成 ML 平台和自动化,更快获得回报。这种经济激励,加上尽快实现 AI 收益的压力,推动 AutoML 成为满足需求的关键方法。AutoML 承诺加速 ML 解决方案交付并扩大可访问性,在公司希望处理越来越多 AI use cases 的背景下,这一点越来越有吸引力。

现实世界结果进一步说明了为什么需求持续上升。例如,一项 EY 案例研究描述了一家制造商在工厂现场部署数据分析,包括 ML 模型,并实现了接近 40% 的产品产量提升,以及 60% 的计划外停机时间减少。在金融领域,使用 ML 进行信用评分和欺诈检测的银行已经观察到可衡量改进。一家全球银行报告称,ML 驱动的风险模型在六个月实施期内借助自动化更快开发,使其能够在不增加损失的情况下提高贷款规模,并增加每年 700–800 万澳元利润。这些成功案例凸显了有效 ML 解决方案的重要性,它们可以直接转化为正向 ROI。因此,需求不仅在于更多 ML 模型,也在于更快、更具成本效益的模型开发方式。这正是 AutoML 作为关键技术出现的背景:组织需要的 ML 解决方案远远超过现有团队能够产出的数量,并且迫切需要能够自动化并加速 ML 开发生命周期的工具。

应对数据科学人才缺口

采用机器学习的热潮造成了严重的人才缺口——训练有素的数据科学家远远不足以满足行业需求。几乎每家大公司都在招聘数据科学岗位,但合格候选人的供给不足。McKinsey Global Institute 预测,到 2026 年,美国对数据科学家的需求将超过供给 50% 以上。值得注意的是,在后大语言模型时代,也就是 post-LLM era,“数据科学家”的定义仍在演化,因为 ChatGPT 和 Claude 等工具正在重塑哪些技能是必要的,哪些技能可以被增强。这种稀缺性体现在招聘指标中:数据科学和分析岗位平均需要约 45 天才能填补,比其他技术岗位多大约 5 天。招聘熟练 ML 专家的困难导致项目积压和人员成本上升,阻碍组织的数据计划。简言之,ML 解决方案需求正在增长,但专家有限已成为瓶颈。

更重要的是,即使公司拥有数据科学团队,这些团队也会把相当一部分时间花在重复性、低层次工作上。研究发现——我基于几十年行业经验也可以确认这一点——数据科学家大约 70%–80% 的时间用于数据清洗、特征工程和算法调优等琐碎任务。这有时被称为 “80/20 rule”:只有 20% 的精力投入到建模中高价值的创造性部分。从效率角度看,这对稀缺且昂贵的专家人才来说,是一种糟糕使用方式。

不过,需要注意的是,LLM 辅助编码工具,例如 GitHub Copilot、Claude、ChatGPT,已经在改变这一动态,自动化了一部分过去消耗大量时间的编码和数据整理工作。AI coding assistants 的出现表明,未来几年 “80/20” 的比例可能会朝有利于数据科学家的方向变化。这也激发了对自动化 ML 常规工作环节工具的兴趣,使数据科学家能够专注于战略和领域特定问题解决。

AutoML 已经成为解决人才缺口的一个有吸引力的组成部分。通过自动化 ML pipeline 的许多阶段,从数据预处理和特征选择,到模型选择和超参数调优,AutoML 平台使单个数据科学家能够在同样时间内交付比手写代码更多的模型。例如,AutoML 系统可以快速并行测试数十种算法和参数组合,而即使是大型团队,也只能通过艰苦的人工努力完成。数据科学自动化的早期采用者报告了显著时间节省。Gartner 在 2017 年预测,到 2020 年,超过 40% 的数据科学任务将被自动化,这一预测在很大程度上已经成为现实。Gartner 更新后的预测表明,到 2025 年,最多 80% 的常规数据科学任务将被自动化,这将由 AutoML 和 AI-assisted platforms 的进步推动,带来生产力提升,并让非专业人士更广泛使用分析能力。随着自动化处理繁重工作,组织能够更有效利用有限专家,即使相对较小的团队也能承担复杂 ML 项目。

除了提高单个数据科学家的生产率,AutoML 还通过让更广泛的人群参与 ML 解决方案开发,帮助应对人才缺口。这有时被描述为赋能 “citizen data scientists”,即没有受过正式 ML 训练,但拥有领域知识和一定分析技能的员工。在最近一篇合著文章中,我认为近期 AI 工具的激增,也让 citizen developers 能够通过自己构建应用,接管大范围应用开发。我们将在下一节讨论 democratization。不过,它与人才短缺直接相关:与其试图招聘一支市场无法供应的 PhD 级专家大军,公司可以使用 AutoML 工具,将 ML 能力扩展给现有分析、IT 或业务领域员工。实际上,AutoML 既是稀缺专家的 force multiplier,也是让熟练 generalists 填补缺口的桥梁。

NOTE

提醒一句:虽然 democratization 扩大了能够构建模型的人群,但并非所有 use cases 都适合 citizen data scientists。本章后面会介绍一种分层模型,用于区分适合 citizen 的 use cases,例如低风险、边界清晰的问题,以及需要专家参与的 use cases,例如高风险、受监管领域。这个框架帮助组织恰当地利用 democratization。

从业务视角看,用 AutoML 和相关策略缩小人才缺口至关重要。无法填补数据科学岗位,或无法承担大型 ML 团队成本的组织,可能会落后。通过采用 AutoML,这些组织仍然可以推进 AI 计划。例如,一家没有大型数据科学部门的区域性银行,可以利用 AutoML 平台让现有数据分析师开发信用风险模型,从而避免招聘大量新专家。类似地,一家营销公司可以让分析师通过 AutoML 提升技能,在内部构建客户倾向模型。这不仅有助于在人才稀缺情况下执行项目,也减少了对昂贵咨询或外包的依赖。总之,AutoML 从两个方面应对人才缺口:自动化劳动密集型 ML 任务,使每个数据科学家更高产、负担更轻;以及 democratization ML development,使能够构建模型的人群从少数难以招聘的专家扩展出去。

AI 开发的民主化

AutoML 最重要的影响之一,是它在 democratizing AI 中发挥的作用,也就是让机器学习开发对更广泛人群可访问。传统 ML 开发需要深厚的算法、调参和编码专业能力,实际上将其限制在 PhD 数据科学家和 ML 工程师手中。AutoML 通过把复杂工作流抽象成更简单的界面,改变了这种范式。因此,非 ML 专家,例如业务分析师、工程师、医生、营销人员,现在可以用很少代码,甚至通过可视化工具,创建和部署模型。换句话说,AutoML 正在让许多非程序员成为有生产力的 “citizen data scientists”。

在我与 Thomas Davenport 和 Ian Barkin 合著的文章 “We’re All Programmers Now” 中,我们探索了生成式 AI 工具如何通过使没有正式编码背景的员工成为 “citizen developers” 来改变工作场所。这些工具允许用户通过自然语言 prompts 创建应用,实际上是在 democratizing software development。这种转变挑战了 IT 专业人员和最终用户之间的传统动态,因为非技术员工现在可以独立构建解决方案,从而可能加速创新,并减少对负担过重 IT 部门的依赖。我们强调,组织需要通过适当培训、治理和集成策略来支持这种变化,以便在保持控制和安全性的同时释放收益。这也包括 AutoML 解决方案,它们早于 GenAI 热潮出现。

现代 AutoML 平台强调用户友好设计,以赋能这些非专家。许多平台提供 drag-and-drop model builders、guided wizards,或简单的 point-and-click interfaces,用于导入数据、选择目标结果,然后让系统自动训练多个候选模型。例如,Google 的 Cloud AutoML、Microsoft 的 Azure AutoML 和 Amazon 的 SageMaker Autopilot,都允许用户通过 web UI 上传数据集并指定目标,例如预测 churn 或分类图像;服务会在后台处理所有模型训练。值得注意的是,来自 OpenAI、Azure 和 Anthropic 等提供商的 fine-tuning-as-a-service offerings,代表 AutoML 原则最近在大语言模型上的一种演进。类似地,H2O.ai 的 Driverless AI 提供一种界面,分析师可以拖入数据,并得到一个优化模型和解释,而不需要编写复杂代码。H2O.ai 也显著扩大了对 LLM integration 的关注,例如 h2oGPT 和 LLM Studio 等产品,反映了传统 AutoML 能力与生成式 AI 的融合。通过移除 ML 的陡峭学习曲线,AutoML 让领域专家能够直接利用 AI。营销经理可以构建客户分群模型,医生可以开发风险预测模型,而无需手边有数据科学团队。

实证研究证实了这种参与范围扩大的趋势。AutoML 被称为 “democratizing data science” 背后的驱动力。例如,医疗信息学中的纵向研究显示,AutoML 使临床医生能够独立创建准确诊断模型,在特定任务中匹配甚至超越专家构建的模型,尤其是那些涉及干净、带标签数据和标准评估指标的任务。通过自动化算法选择和优化,AutoML 系统在医学图像分析、疾病预测等领域已经达到与资深数据科学家相当的表现。关键在于,这些系统让领域专业人士能够在不具备大量 ML 知识的情况下尝试 ML。这在实践中扩大了 AI 可访问性:医院、小企业和政府机构都可以由理解问题领域的员工驱动实施 ML 解决方案,同时依赖 AutoML 的自动化来处理技术性 ML 细节。

通过 AutoML 实现的 democratization,也在帮助组织填补内部技能缺口。公司不必为每个项目都聘请外部专家,而是训练现有员工使用 AutoML 工具。例如,一家保险公司可以培训精算师使用 AutoML 平台构建欺诈检测模型。精算师拥有强数据和业务知识,但 ML 背景有限;借助 AutoML,他们可以自己原型化并部署模型,而这在几年前如果没有数据科学学位几乎不可能。最近一项调查发现,使用 AutoML 和 self-service analytics 的 citizen data scientists 正在增加。Gartner 曾大胆预测,他们会比专业数据科学家产出更多分析,主要原因是 AutoML 自动化了许多任务。虽然这个预测很大胆,但它凸显了一种根本转变:AutoML 正在赋能一类新用户参与 AI development,从而民主化由谁创造 ML 价值。

需要注意的是,democratization 并不意味着数据科学家正在过时;相反,它增强了专家和非专家之间的协作。AutoML 使业务用户能够独立处理 “long tail” analytics problems,或快速原型化一个想法,之后由数据科学团队审查和优化。这释放专家,让他们专注于最复杂或最新颖的挑战,即真正需要其专业技能的地方,同时让更常规模型更快交付。在实践中,许多公司采用混合方法:自动生成的模型由经验丰富的数据科学家 vetting;或者专家设置 AutoML 环境并建立 guardrails,例如指定特定算法或公平性约束,然后由领域团队在这些指南内迭代。净效果是 AI development 的规模显著扩大,更多模型被构建和部署,因为组织不再受限于核心数据科学团队能够手工打造的数量。AutoML 降低了进入门槛,让 AI development 成为企业范围内的 team sport,而不是少数专家的专属领域。

同样值得注意的是,虽然 AutoML 民主化了模型构建,但对于高风险 use cases,它可能增加 technical debt。通过 AutoML 开发的模型,在以可信、可靠方式部署到生产前,可能需要 ML 专家大量返工,尤其是在受监管行业或安全关键应用中。

几个案例研究突出了这种 democratization 的实际效果。在一个例子中,一家零售公司的营销分析师没有正式 ML 训练,却使用云 AutoML 服务创建了客户流失预测模型。平台处理繁重工作,包括数据预处理、模型训练、验证,并产出了一个能够高精度识别风险客户的模型。随后,分析师可以把这些洞察用于活动,无需等待数据科学部门花几周交付模型。另一个案例中,医院 IT 部门将 AutoML 工具应用到医院再入院数据上,构建了患者再入院风险评分模型,医生开始在日常实践中使用它来标记高风险患者,整个过程无需外部 ML 咨询公司的帮助。这些越来越常见的场景展示了 AutoML 将 AI development 直接交到 subject matter experts 手中的能力,有效民主化了谁能构建 AI 解决方案。

机器学习版图中的 AutoML

随着 AutoML 采用增长,理解它在更广泛机器学习版图中的位置非常重要。AutoML 不是消除所有人类参与需求的 silver bullet,但它已经成为现代 ML workflows 的核心组件。在实践中,AutoML 工具会与传统编码和建模结合使用。数据科学家可能使用 AutoML 进行快速 baselining,或自动化 pipeline 中的特定部分;而 citizen developers 则依赖 AutoML 进行端到端模型构建。当前版图可以从各种 AutoML 解决方案的能力和成熟度,以及它们与手工模型的对比来理解。

值得注意的是,研究表明,今天的 AutoML 系统已经可以在许多标准任务上达到与人类专家相当的表现。例如,2023 年对 12 个 AutoML 工具的实证 benchmark 发现,AutoML 生成的模型在软件工程特定分类问题上,优于研究人员手工优化的模型。这表明,对许多问题,尤其是结构化数据上的分类或回归等目标清晰的问题,AutoML 可以交付 state-of-the-art accuracy。通过系统性探索庞大的算法和参数空间,AutoML 有时会发现人类可能错过的高性能模型配置。然而,同一研究也强调了局限:被评估的 AutoML 解决方案没有一个能同样出色地完全自动化 ML workflow 的每个阶段。一些工具擅长模型训练,但不自动化数据清洗或部署;另一些工具自动化 pipeline steps,但提供有限 customization。这说明 AutoML 版图仍在演化:当前工具提供了显著自动化,但它们往往是在增强 human in the loop,而不是替代它,尤其是在问题定义、数据准备和最终 trade-offs,例如 accuracy、interpretability 等方面。

从市场视角看,AutoML 版图可以分为以下主要工具 / 框架类别。

开源 AutoML 库

这些包括 Auto-sklearn、TPOT、AutoKeras、FLAML 和 AutoGluon 等项目。它们通常是 Python libraries,数据科学家可以安装并集成到 notebooks 或 pipelines 中。开源 AutoML frameworks 通常聚焦特定任务,例如 Auto-sklearn 和 TPOT 面向 tabular data classification / regression,而 AutoKeras 面向 deep learning tasks。总体而言,开源 AutoML 工具在技术用户和研究人员中很受欢迎;它们能力强,常常在公开 benchmarks 中胜出或排名靠前,但需要用户在编码环境中编排它们。

TIP

本书中,我们将使用其中一个包,也就是 AutoGluon,通过动手示例展示 AutoML 的能力。

企业 AutoML 平台

多家公司提供商业平台,提供带企业支持的端到端 AutoML 解决方案。DataRobot 和 H2O.ai(Driverless AI)是两个知名例子,Google(Vertex AI)、Microsoft(Azure AutoML)和 Amazon(SageMaker Autopilot)等云厂商也属于这一类别。这些平台通常有 GUI,支持完整建模生命周期,从数据导入到部署,并包含超出模型训练本身的 features,例如 model management、monitoring 和 governance。这些平台也为 deployment maturity 设计:模型可以通过一次点击或 API call 部署到生产,并支持自动扩缩容。它们与 databases、cloud storage 和 MLOps pipelines 集成,对于希望拥有从原始数据到已部署服务的无缝 ML pipeline 的组织非常有吸引力。

领先框架对比

在领先 AutoML frameworks 的比较中,有几个维度尤其突出:

Accuracy versus speed

AutoGluon 和 H2O AutoML 等工具通常优先 accuracy,有时会以更长训练时间或更大 ensembles 为代价。相比之下,LightAutoML 等工具目标是在很短时间内生成不错模型,适合实时或资源有限场景。

Robustness and resource use

一些 frameworks 比其他 frameworks 更擅长处理大数据集或 noisy data。H2O AutoML 表现稳健,但可能资源密集,需要更多内存 / 计算,这在受限环境中可能成为问题。AutoGluon 等工具则显示出即使在多样化任务上也有较低 failure rates。规模扩大时,企业平台通常内置 checks,并提供客户支持,以处理 failures 或 large jobs。

Feature engineering and data types

AutoML offerings 在可处理的数据类型和 features 范围上有所不同。传统工具,例如 TPOT 或 Auto-sklearn,专注 tabular numeric / categorical data。更新或更高级工具则整合 text、images 和 time series。

Explainability and compliance

随着 ML 被用于敏感应用,explainability 已经成为差异化因素,而且是必要能力,见 “AutoML Across Industries: Transforming Business Processes”。许多 AutoML frameworks 现在集成 explainable AI(XAI)技术。一些领先 AutoML frameworks 总结在表 1-1 中。

表 1-1:领先 AutoML frameworks 对比

FrameworkTypeKey StrengthBest ForOpen Source?
Auto-sklearnTraditional MLEnsemble selection, meta-learningTabular data, Kaggle-style problemsYes
H2O AutoMLTraditional MLScalability, enterprise features, LLM integration(h2oGPT)Large datasets, production deploymentYes(+ Enterprise)
Vertex AI AutoMLCloud / neuralVision, NLP, TablesTeams without ML expertise, GCP usersNo(managed service)
AWS SageMaker AutopilotCloud / hybridAWS integration, automatic algorithm selectionAWS users, enterprise deploymentNo(managed service)
Auto-WEKATraditional MLAlgorithm selectionAcademic / research useYes
TPOTTraditional MLGenetic programming pipelinesExperimentation, pipeline discoveryYes
AutoKerasDeep learningNeural architecture searchImage / text classificationYes
Microsoft FLAMLHybridFast, lightweight, LLM integrationResource-constrained Azure usersYes
AutoGluonHybridStrong tabular performance, multimodalProduction use, competitionsYes

总体而言,AutoML 已经在 ML 版图中占据重要位置:它不再是实验性想法,而是被新手和专家共同使用的实用工具,用于加速模型开发。几乎所有核心 ML 平台现在都包含 AutoML 能力,这凸显了它的重要性。

NOTE

一些历史背景:Auto-sklearn 在 ChaLearn AutoML Challenge(2015–2016)十个阶段中赢得了六个阶段,在几个轮次中超越了其他自动化系统和人工调优提交。在更近期 benchmarks(2022–2024)中,格局已经变化:AutoGluon、LightAutoML 和 H2O AutoML 经常在 OpenML AutoML Benchmark 上领先,尤其是 AutoGluon 在 tabular datasets 上表现强劲。这些不断演化的结果反映出该领域的快速进步;没有任何单一工具能在所有上下文中长期保持统治地位。

不过,专家仍然在指导 AutoML 中发挥关键作用,例如选择正确数据、定义问题、处理细微差别,这些内容将在后续章节中覆盖;同时专家也会处理那些超出 AutoML 当前范围的定制问题。

总结竞争格局:AutoML frameworks 已经成熟到可以在多种任务上,用最少人工努力可靠交付高质量模型。它们在易用性、集成性、速度,以及 explainability 和 deployment support 等特殊功能方面仍存在差异。基于表格的 benchmarks,例如 OpenML AutoML Benchmark,显示多个 frameworks,例如 AutoGluon、H2O、Auto-sklearn 等,会根据数据集不同交换领先位置,这表明没有一个工具在所有场景中都是普遍最佳,但许多工具都非常能干。组织通常会根据生态适配选择:例如,深度投入 AWS 的公司可能倾向 SageMaker Autopilot;Python 开发团队可能偏好 AutoGluon 或 PyCaret,因为它们灵活;非技术团队可能选择 DataRobot 这样的 managed platform,因为有 GUI 和支持。好消息是,AutoML 生态丰富且快速发展,健康竞争会持续提升这些工具的能力。

谁应该使用 AutoML?

鉴于 AutoML 的能力,谁最能从中受益?在实践中,AutoML 对广泛 personas 都有帮助,从非技术领域专家到经验丰富的数据科学家,只是帮助方式不同。2024 年一项行业 review 识别了 AutoML 赋能的三类主要用户群体:

Software engineers and application developers:这些专业人员需要将 ML 集成到应用中,但可能没有专业 ML 知识。AutoML 让他们能够开发可工作的模型,而不必深入算法理论。

Citizen data scientists,也就是 domain experts / analysts:这些是业务部门中的 power users,包括 analysts、BI specialists、subject matter experts。他们理解数据和问题,但没有接受过正式机器学习训练。AutoML 可以说正是为这个群体设计的,帮助他们在 low-code 或 no-code 环境中构建 ML pipelines。

Data scientists and ML engineers:有趣的是,AutoML 对经验丰富的 ML 专业人士同样有价值。它远不是替代他们,而是可以提升他们的生产力,让他们处理更高级的问题。数据科学家使用 AutoML 自动化实验中繁琐的部分,例如快速 benchmark 数十种模型类型,在投入时间精调某个模型之前,先识别有前景的方法。

除了这些群体,组织领导者和决策者也会间接受益于 AutoML。AutoML 支持更快 proof-of-concepts 和结果产出,帮助业务领导者用数据验证想法。一个产品经理如果有一个新的 ML 驱动功能想法,可以用 AutoML 在几天内原型化并展示,从而帮助证明投资合理性。从战略角度看,任何希望提高 ML 项目 throughput,或将 ML 能力引入当前缺乏这种能力团队的组织,都应该使用 AutoML。这包括没有完整数据科学部门的中小企业。AutoML 可以成为一个 lone data scientist 或 analytics manager 的 “force multiplier”,让他们交付可媲美更大团队的价值。

在教育和学习场景中也有用例:学生和学习者可以使用 AutoML 工具,在不需要大量编码的情况下获得 ML 概念的动手经验,这有助于建立直觉,并激发他们进一步深入学习。因此,AutoML 是初学者在真实数据集上尝试机器学习的良好入口,例如在 UI 中试用一个数据集并查看结果,然后检查哪些 features 是必要的。

另一方面,也存在 AutoML 可能不是理想方法的场景,也就是说,不应只使用 AutoML。如果某个问题高度专业化,或者数据非常独特,例如为视频处理设计新的 deep learning architecture,那么专家数据科学家会手工打造超出当前 AutoML 范围的模型。类似地,如果组织拥有充足专家人才,并且问题需要最大化优化或新颖研究,它可能只把 AutoML 用作参考。在受监管行业中,虽然 AutoML 提供 explainability tools,一些机构仍可能要求人类验证并调整 modeling choices,以满足合规或伦理原因。因此,AutoML 并不是所有 ML 任务的万灵药。不过,对于绝大多数常规业务预测和分类问题,以及上面概述的广泛用户群体来说,它是一项重要技术。

总之,任何需要机器学习洞察,但没有时间或高级技能从零构建模型的人,都应该考虑使用 AutoML。这包括嵌入 ML 的软件开发者、从数据中提取价值的分析师,以及加速自身工作的数据科学家。通过服务这一广泛人群,AutoML 正在帮助培养 data-driven culture。业务用户可以直接参与 ML,技术专家则可以用更少努力交付更多成果。结果是,组织可以大幅扩展 ML 解决方案。例如,Adecco Group 使用 AutoML 在短短三周内启动了 60 个 ML 项目和 3000 个模型,这是传统方法不可能达到的速度,因为创建模型的能力不再局限于少数人。随着 AutoML 持续演进,我们可以预期其用户群将进一步扩大,包括与产品经理、IT operations 和其他角色所用工具集成,使 AI development 真正成为企业中的协作式、无处不在的能力。

跨行业的 AutoML:改变业务流程

自动化机器学习正在快速从一种专门技术,转变为众多行业 AI strategy 的基础组件。这种广泛采用由 AutoML 提供的切实收益推动,包括效率提升、成本降低、更快获得洞察,以及高级分析能力民主化。市场预测反映了这一趋势,预计 AutoML 市场将在未来几年达到数十亿美元规模,表明持续投资和采用正在显著增长。不过,AutoML 的应用高度依赖上下文,不同行业会基于自身独特挑战、数据环境和监管环境,优先选择不同能力。

Finance

金融服务行业是 AutoML 的早期重要采用者,背后驱动力是需要实时处理海量交易数据,并对抗越来越复杂的欺诈活动。

关键 use cases 包括 fraud detection、credit scoring、risk assessment、algorithmic trading 和 customer analytics。

AutoML 使金融机构能够构建可以实时分析交易流的模型,比传统 rule-based systems 更快识别表明欺诈的异常模式。欺诈检测中的一个关键挑战,是旧系统产生较高 false positives,这可能非常昂贵,并损害客户信任。基于 AutoML 的方法,例如使用 H2O.ai 实施的方法,已经显示出显著成功:减少 false alarms,例如降低 64%,同时提升实际欺诈检测,例如提高 50%–80%。此外,AutoML 也帮助开发更准确的 credit scoring models,并优化 trading strategies。一些 AutoML 平台对 interpretability 的强调,在该行业满足严格 regulatory compliance requirements 时也至关重要。

Healthcare and Life Sciences

AutoML 正在医疗健康领域取得重要进展,有望增强诊断、个性化治疗并简化研究流程。

Use cases 覆盖 disease prediction and diagnosis,例如预测哮喘结果、糖尿病视网膜病变、COVID-19 携带状态以及牙科疾病;medical image analysis,例如眼底照片分类和 MRI 扫描分割;drug discovery;patient readmission prediction;优化临床试验分析;用于种子早期疾病检测的遗传分析;以及 livestock health monitoring。

AutoML 工具帮助研究人员和临床医生管理并分析大型、复杂且通常多模态的医疗数据集。它们可以自动化预测模型开发,潜在提升诊断准确性并支持更早干预。然而,医疗应用面临独特挑战,包括处理高度不平衡数据集,这在疾病预测中很常见;确保模型可泛化到多样化患者群体;以及在临床采用前对 model interpretability 和 validation 的关键需求。此外,FDA 的 Software as a Medical Device(SaMD)指南和 HIPAA 等监管框架也施加严格要求。使用 medical claims data 的 benchmarking studies 显示,虽然 AutoML 工具优于 baseline models,但仍有显著改进空间,尤其是在处理 imbalance 和实现高 precision-recall performance 方面。Google Vertex AI 和 H2O AutoML 等工具正在该领域使用。

Retail and Ecommerce

零售行业利用 AutoML 优化运营、个性化客户体验,并在动态市场中获得竞争优势。

常见应用包括 targeted advertising optimization、demand forecasting、dynamic pricing、inventory management、personalized product recommendations、customer segmentation、churn prediction,以及基于客户评论的 sentiment analysis。

AI 驱动的 demand forecasting 通常通过 AutoML frameworks 实现,相比人工方法可以显著提高准确率,例如在有利条件下从 70% 提升到 90%–95%。不过,这些收益会因 SKU type,例如 fast-moving versus long-tail items、seasonality patterns、product category maturity 和 data quality 等因素显著变化。高度季节性产品、新品引入和 long-tail SKUs 通常提升较小。最显著的准确率提升通常发生在稳定、高销量、拥有丰富历史数据的产品上。这会带来实质收益,包括减少 overstocking 和 carrying costs,例如降低 20%–30%;减少 stockouts,例如降低 30%–40%;优化 inventory levels;最终增加 sales 和 customer satisfaction。Bimbo Bakeries,例如 forecast error 最多降低 30%,以及 PacSun 和 Belk 等公司的案例研究都展示了切实 ROI。AutoML 还驱动 recommendation engines 和 personalization strategies,分析客户行为以提供定向优惠并提高 engagement。

Manufacturing

AutoML 正越来越多应用于制造业,用于提升效率、改进质量控制,并优化维护策略。

关键领域包括 predictive maintenance,也就是基于 sensor data 预测设备故障;automated quality control,即使用 computer vision 检测缺陷;supply chain optimization;以及 process automation。

使用 AutoML 构建的 predictive maintenance models 可以分析 sensor data,例如 temperature、rotation speed、torque、tool wear,以提前预测故障,使维护可以主动安排,从而减少代价高昂的计划外停机。在质量控制方面,AutoML 支持 visual inspection systems,这些系统可以在识别产品缺陷上达到非常高准确率,例如 99%,显著减少人工检查需求,例如减少 80% workforce,并提高质量检查 throughput,例如提升 8 倍。汽车行业案例研究表明,AutoML frameworks 可以有效关联多个生产阶段的数据,提前检测细微缺陷,从而优化最终车辆测试流程,并显著节省时间和成本。

Other Sectors

AutoML 的影响延伸到许多其他行业。电信公司用它进行 customer churn prediction 和 network optimization。能源行业将其用于 demand forecasting 和 equipment predictive maintenance。农业使用 AutoML 做 precision farming,以优化 crop yields。运输和物流行业用它做 route optimization 和 supply chain visibility。政府和国防机构探索将其用于 cybersecurity threat detection 和 fraud prevention,而教育机构则将其用于 personalized learning paths 和行政效率提升。

分层 Use Case 模型

AutoML 在这些多样行业中的成功部署,凸显了它的多功能性。不过,这也说明工具和技术的选择必须根据具体需求定制。金融和医疗健康等行业由于监管和伦理考虑,会同时优先考虑 interpretability 和 accuracy,可能更偏好 H2O AutoML 或具备强 XAI 集成的工具。零售行业处理海量数据并优先关注 forecasting,可能倾向可扩展平台或 AutoGluon 等以 tabular performance 见长的库。制造业通常涉及传感器和图像数据,并需要实时决策,因此需要能够处理这类 modalities 的稳健解决方案,可能会利用 NNI 等工具构建 custom vision models,或使用 AutoGluon 处理 multimodal inputs。

这意味着 citizen developers 不应被信任处理所有 use cases,这完全没问题。一个潜在解决方案是分层模型:

Citizen-appropriate use cases:低风险、边界清晰的问题,具备干净数据和标准指标,例如 marketing lead scoring、inventory forecasting、internal process optimization。AutoML 在这里表现出色。

Expert-required use cases:高风险、受监管或安全关键领域,例如 healthcare、finance、autonomous systems,这些场景中细微差别非常重要。这里 AutoML 加速专家工作,但不替代专家判断。

Guardrails:现代 AutoML 平台越来越多内置 guardrails,包括 explainability reports、fairness checks、confidence thresholds,帮助非专家识别自己何时超出了能力范围。

克服障碍:AutoML 中持续存在的挑战

尽管 AutoML 快速演进并被越来越多采用,但仍有若干持续存在的挑战和限制,阻碍其普遍应用,并需要研究人员和实践者持续关注。这些障碍通常体现为:追求完全自动化与部署真实世界机器学习所固有复杂性之间的张力。

Interpretability,即 “Black Box” 问题

最常被提到的挑战,可能就是 AutoML 系统生成模型缺乏透明性。许多 AutoML 工具,尤其是那些使用复杂 ensemble methods 或通过 neural architecture search(NAS)发现 deep neural networks 的工具,会生成内部决策逻辑不透明的模型。这种 “black box” 特性,是医疗健康和金融等高风险或受监管领域中的重大障碍,因为理解为什么作出某个预测,对建立信任、支持 debugging、确保 fairness、检测 biases 以及 complying with regulations 都至关重要。

监管对 interpretability 的压力正在增强:EU AI Act 将许多 ML 应用归类为 “high-risk”,并要求强制透明性;纽约市等司法辖区也要求对 algorithmic systems 进行 bias audits,例如自动化就业决策方面的 Local Law 144。这些发展使 interpretability 不再只是 “nice to have”,而越来越成为法律必要条件。虽然整合 SHAP 和 LIME 等 explainable AI(XAI)技术,是第三代工具的重要方向,但为高度复杂、自动生成的模型提供实质且可靠的解释,仍然是一个活跃研究领域,并且存在已知限制。

Customization 与 Automation 的需求冲突

AutoML 的核心价值主张是 automation,而 automation 天然意味着代表用户作出选择。然而,这可能与专家数据科学家或高度专业化应用的需求冲突,后者需要对 model architecture、feature engineering steps 或特定 hyperparameter settings 进行细粒度控制。高度自动化平台可能缺乏灵活性,无法纳入特定领域知识,或无法实现工具预定义搜索空间之外的新技术,从而在 niche scenarios 中可能导致次优解决方案。

Data Quality Dependency and Robustness

AutoML 系统和所有机器学习方法一样,根本上依赖输入数据质量。俗话说 “garbage in, garbage out”,在这里尤其成立;自动化建模流程并不意味着不再需要干净、具代表性、准备充分的数据。低质量数据,包括 missing values、inconsistencies、errors 或 inherent biases,无论 AutoML 工具有多复杂,都会不可避免地产生表现差或不可靠的模型。此外,确保 AutoML 生成模型的 robustness,也就是它们能够泛化到新的、未见过的数据,并在 data drift 随时间发生时保持性能,是一个关键挑战,需要仔细 validation,并与 MLOps monitoring practices 集成。

Computational Costs and Resource Intensity

虽然 AutoML 旨在节省人类时间,但自动化搜索过程可能极其消耗计算资源。探索庞大的算法、超参数,甚至神经架构搜索空间,需要大量计算资源,通常需要 GPU 等强硬件,以及可观的云计算预算。这种成本因素可能令人望而却步,尤其对较小组织、经费有限的学术研究者,或涉及海量数据集的应用来说,会限制 AutoML 本来希望促进的可访问性。完整 NAS 搜索可能消耗数千到数万美元的云计算成本。

Addressing Bias and Fairness

伦理考虑在 AI 部署中至关重要。基于历史数据训练的 AutoML 系统可能无意中学习并放大数据中已有的社会偏见。确保 fairness 并缓解自动化模型开发 pipeline 中的 bias,是一项复杂且有挑战的任务。虽然一些工具开始整合 fairness metrics 和 mitigation techniques,例如 MLJAR 的 fairness module,但开发稳健、自动化的方法来保证多样化应用中的 fairness,仍然是一个开放研究问题。

Scalability and Efficiency

虽然相比早期版本已经显著改善,但要高效扩展 AutoML 流程,以处理真正海量数据集或极复杂搜索过程,例如 exhaustive NAS,仍然可能构成挑战。在搜索彻底性与现实时间和资源约束之间取得平衡,仍是关键考虑。

这些挑战表明,虽然 AutoML 提供强大自动化,但它不是万能药。成功且负责任地采用 AutoML,需要的不只是复杂算法。它需要仔细考虑应用上下文、稳健的数据治理实践、与 MLOps 的集成以支持监控和维护、专门投入 explainability 和 fairness,以及对计算成本的现实理解。克服这些障碍需要一种整体方法,把 AutoML 本身的技术进步,与周边数据基础设施、运营流程和伦理指南的改进结合起来。

地平线:塑造 AutoML 的未来趋势

自动化机器学习领域仍在快速演进,受到持续研究、技术突破,以及对更强大、更高效、更可信 AI 解决方案的持续需求驱动。几个关键趋势将塑造 AutoML 未来轨迹。

与大语言模型(LLMs)和基础模型的协同

最具变革性的进展之一,是 AutoML 与 LLMs 及其他 foundation models 的深度集成。这种集成承诺一种共生关系:

AutoML for LLMs

AutoML 技术正在被探索,用于自动化优化 LLMs 本身涉及的复杂流程,例如 prompt engineering、fine-tuning 的 hyperparameter tuning,甚至搜索最优 LLM architectures。

LLMs for AutoML

反过来,LLMs 的 natural language understanding、reasoning 和 generation capabilities,可以增强 AutoML 系统能力。LLMs 可以支持更直观、对话式的界面来定义 ML tasks;基于高层描述自动生成 data preparation 和 modeling pipelines 代码;基于 semantic understanding 辅助 automated feature engineering,建议相关 transformations;甚至为 model predictions 生成 human-readable explanations,从而可能提升 interpretability。已有若干 surveys 开始绘制这一新兴版图。Microsoft 的 FLAML 等工具已经展示了这种集成。

Foundation models as bases

大型预训练 foundation models,例如 GPT、BERT 和 CLIP,可以作为 AutoML 的强大起点。AutoML 不再从零开始搜索,而是可以聚焦于高效 fine-tuning 这些模型以适配特定 downstream tasks,利用它们已经学到的 representations,在更少数据和计算条件下实现高性能。

Challenges

尽管令人兴奋,仍然存在重大挑战,包括 LLMs 可能 “hallucinate” 或生成错误代码 / 推理,使用大型模型的高计算成本,以及围绕 bias 和 reliability 的固有伦理问题。

下一代 Neural Architecture Search(NAS)

NAS 仍然是 AutoML 研究的核心支柱,尤其是在 deep learning 语境下。未来趋势集中在以下方面:

Efficiency and scalability:开发更快、计算成本更低的搜索策略,例如 gradient-based NAS、one-shot methods,也就是训练单个 “supernet”,使 NAS 对更大模型和数据集更加实用。

Broader applicability:将 NAS 从传统图像分类任务扩展到为多样化数据类型和功能发现最优 architectures,包括 graph neural networks、用于 natural language processing(NLP)的 transformers,以及 time series models。

Improved search spaces:设计能够有效整合 prior knowledge 和 constraints 的 search spaces,在表达能力和搜索效率之间取得平衡。

Integration with meta-learning:将 NAS 与 meta-learning 结合,使 architectures 能够更快适应新任务。

Multimodal Explainable AI(MXAI)的成熟

随着 AutoML 系统越来越多处理 multimodal data,针对这些复杂输入的 explainability techniques 变得关键:

Explaining cross-modal interactions:开发能够解释不同 modalities,例如 image 和 text,如何被组合,以及如何影响模型预测的方法。

Standardized evaluation:建立稳健且被广泛接受的 metrics 和 benchmarks,用于评估 multimodal explanations 的 quality、fidelity 和 usefulness。

Human-aligned explanations:研究更符合人类认知过程的解释方法,提供真正有洞察力的解释,而不仅仅是技术上准确的解释。MXAI 的演化正在不同 AI 时代中被追踪,从传统方法到 generative LLMs 引入的复杂性。

通过 Low-Code / No-Code 持续民主化

面向更直观、图形化界面,并且需要极少或无需编码的趋势预计将持续,从而进一步扩大 AutoML 对 citizen data scientists、business analysts 和 domain experts 的可访问性。

扩展到 Edge Computing 和 Federated Learning

实际部署场景正在推动 AutoML 在专业领域中创新:

AutoML for edge computing:开发技术,自动设计并优化轻量、高效机器学习模型,适合部署到资源受限的 edge devices,例如 smartphones、IoT sensors 和 embedded systems。

Federated learning integration:将 federated learning 原则纳入 AutoML frameworks,使模型可以在去中心化数据集上训练,例如用户设备或不同组织 silo 中的数据,同时不损害数据隐私。

AutoML 的未来轨迹指向这样的系统:不仅更自动化,而且更智能、更交互、更具适应性。通过利用 foundation models 和 LLMs 的突破,同时解决效率,例如 NAS 和 edge、可信度,例如 MXAI,以及隐私,例如 federated learning,AutoML 有望成为 AI 版图中更加不可或缺的组成部分。

小结

本章中,我们探索了 automated machine learning(AutoML)的基本概念,以及它对人工智能领域的变革性影响。我们首先理解了 AutoML 出现背后的核心驱动因素:各行业对机器学习解决方案的需求增长、持续存在的数据科学人才缺口,以及将 AI development 从专业专家手中民主化的需求。这些因素共同为 AutoML 繁荣创造了理想环境,使其成为一种能够自动化机器学习工作流中许多耗时、重复任务的技术。

我们看到 AutoML 如何融入更广泛的机器学习版图,不同开源库和企业平台如何提供不同自动化方法。我们也考察了谁能从 AutoML 中受益,从 citizen data scientists 和 domain experts,到经验丰富的 ML professionals,以及其他行业如何利用 AutoML 转变业务流程。金融、医疗健康、零售和制造业只是正在从自动化模型开发中获得切实收益的几个行业。

尽管 AutoML 有很多优势,它仍然面对研究人员和实践者正在解决的持续挑战。围绕 model interpretability、customization 与 automation 的需求冲突、data quality dependencies、computational costs,以及 bias 和 fairness 等伦理问题,仍然是需要改进的重要领域。

展望未来,我们识别了几个将塑造 AutoML 未来演进的关键趋势。与大语言模型和基础模型的集成、neural architecture search 的进步、multimodal explainability 的提升、通过 low-code / no-code interfaces 的持续民主化,以及向 edge computing 和 federated learning 扩展,都指向一个越来越复杂且越来越易访问的 AutoML 生态系统。