1.1 引言
在数字化环境中,推荐系统的发展可谓非同寻常:它们已经从简单的基于规则的应用,演进为复杂的、基于数学模型的解决方案 [1]。本章讨论支撑当前推荐系统的基础技术要素,以及这些技术如何被用于驱动现代推荐系统的发展。本章也有助于理解这些技术在数字化转型流程中的应用方式。
1.1.1 推荐系统的演进
推荐系统的历史始于 20 世纪 90 年代中期,当时一些电子商务组织开始部署协同过滤的简单版本 [2]。这些早期系统依赖真实用户反馈和基础相似度度量来生成推荐。随着数字技术不断进步,推荐系统经历了几个明显的发展阶段:
i)第一代推荐系统:20 世纪 90 年代
第一代推荐系统主要包括基于内存的协同过滤,它利用用户—物品交互矩阵来生成推荐 [3]。这些系统在当时具有创新性,但存在可扩展性问题和冷启动问题。
其中,可扩展性问题指的是:当用户数量或物品数量非常庞大时,系统没有足够数据来生成恰当推荐;冷启动问题则指完全新的用户或物品没有任何历史数据,因此推荐引擎无法有效工作。
ii)第二代推荐系统:21 世纪初
第二代推荐系统采用基于模型的方法,其代表是矩阵分解技术和潜在因子模型。在这一时期,内容特征被整合进过滤技术中,这类技术倾向于同时利用用户行为特征和物品特征,从而提升推荐结果的精度。
在这一阶段,Amazon 的 item-to-item collaborative filtering 算法成为典型案例。该算法推动了电子商务领域中可扩展、个性化推荐系统的发展。
iii)第三代推荐系统:2010 年代
推荐系统在这一阶段借助深度学习和神经网络进一步演进,使模型能够处理复杂模式识别和复杂特征 [4]。这一代系统开始引入上下文感知推荐能力,能够基于时间、地点和社交因素提供推荐。
应用程序也开始通过实时数据流更新用户画像、物品列表和详细数据。
iv)当前一代推荐系统
当前一代推荐系统是多种技术的混合体,涵盖人工智能、边缘计算以及更先进的数据处理引擎。
1.1.2 数字化转型的影响
数字化转型使推荐系统能够在不同方式、方法和技术层面被重新设计。图 1.1 展示了数字化转型影响的三个基础领域,包括技术基础设施、业务运营和用户体验。这三个领域都由两个关键组件支撑,分别推动创新、效率和用户参与价值。该结构化模型展示了数字化战略如何联合起来,形成一个完整且面向未来的企业体系。
数字化转型的影响体现在以下几个关键维度:
i)技术基础设施
Cloud Computing:云计算
云计算支持在 Web 规模用户负载与海量用户实时处理需求之间实现平衡。
Big Data Technologies:大数据技术
大数据技术允许更好地管理和整理海量数据,从而推动推荐解决方案改进。
Edge Computing:边缘计算
边缘计算意味着将推荐处理过程移近用户和客户,以提升响应速度。
Microservices Architecture:微服务架构
微服务架构使推荐系统可以被独立开发,并以类似方式进行部署。
ii)业务运营
Personalization at Scale:规模化个性化
如今,组织可以为数百万用户提供个性化体验,这一点已经成为现实 [5]。
Real-time Adaptation:实时适应
这意味着系统可以根据用户即时表现出的反馈和行为,主动调整推荐结果。
Cross-platform Integration:跨平台集成
推荐可以顺畅运行,用户也可以在不同设备或不同平台之间自然切换。
Data-Driven Decision Making:数据驱动决策
先进分析工具可以支持组织管理层做出更具体、更有依据的决策。
iii)用户体验
Contextual Awareness:上下文感知
推荐结果会依赖用户状态、时间、地点以及所使用的设备。
Improved Accuracy:准确性提升
更高阶的算法和更丰富的数据,可以提供更相关的推荐。
Reduced Friction:降低摩擦
将推荐自动整合到用户界面中,可以改善用户与系统之间的交互。
Privacy-Aware Design:隐私感知设计
复杂系统会在适合个人的属性与隐私相关问题之间进行交织和平衡。
图 1.1 数字化转型:关键影响领域。
1.1.3 本章概览与目标
因此,本章旨在对下一代推荐系统开发中使用的技术和工具进行详细分析 [6]。主要目标包括以下几个方面:
i)知识目标
- 了解支撑当代解决方案的核心技术。
- 评估数字化与推荐系统发展之间的联系。
- 理解设计良好的推荐系统架构所包含的组成部分。
- 学习标准化和最优的部署与开发流程。
- 研究现代趋势,并估计这些趋势对未来系统的影响。
ii)实践目标
- 提供手册式指导,说明如何为特定推荐场景选择合适技术。
- 识别推荐系统应如何正确扩展。
- 命名并说明当前用于评估整体系统性能的方法。
- 展示不同技术组件之间的多种集成方法。
- 通过实际场景传播实施知识。
iii)目标读者
本章服务于多个利益相关者:
- 设计推荐基础设施的系统架构师。
- 应用推荐算法流程的开发人员。
- 作出技术栈决策的技术负责人。
- 致力于数字化业务规划的管理顾问。
- 对推荐系统演进感兴趣的学者。
1.2 核心基础设施技术
现代企业基础设施已经发展并采用了多样化的技术和架构,以适应现代数字化转型流程对其提出的要求 [7]。在这一引入部分之后,本节将考察支撑现代 IT 环境的核心物理技术和通信技术。
1.2.1 云计算平台
云计算已经彻底改变了组织引入、维护并提升应用和服务效率的方式。更准确地说,云服务模型已经演进,并可以分为以下三类。
Infrastructure as a Service(IaaS,基础设施即服务)
IaaS 用于提供基础的、虚拟化的计算环境,使组织无需投资物理资产即可获得基础设施,同时仍然能够在需要时进行扩展。
Platform as a Service(PaaS,平台即服务)
PaaS 提供开发和部署环境,使应用开发和交付过程更加简单且集成化,并配备软件开发工具包(SDK)和各种中间件。
Software as a Service(SaaS,软件即服务)
SaaS 是一种云交付模型,指成熟、可直接使用的应用程序。这类应用只需要最少维护开销,同时提供自动更新和补丁 [8]。
当前主要云服务提供商已经实现了高度复杂的云环境,并提供额外的高阶服务,包括人工智能、机器学习和物联网等。这些平台提供自动伸缩能力,可以根据需求调整资源,从而实现高效运行,同时降低成本。
多云采用已经被视为一种最佳实践,它可以利用多个提供商的优势,从而避免依赖单一提供商。
云计算中的安全考量涵盖多个关键领域:企业需要建立强身份与访问管理流程;对静态数据和传输中数据进行加密;持续满足监管控制要求;处理数据本地化问题;并制定强大的灾难恢复协议。所有这些安全措施都必须定期修订和升级,以应对安全威胁并满足特定规范。
1.2.2 微服务架构
微服务架构与传统单体应用有显著差异,它将应用拆分为多个子服务。这样的应用架构方法帮助组织以模块化方式构建、实现和扩展应用的各个组件,从而提升灵活性并缩短上市时间。
在实现微服务架构时,有几个关键特征非常重要。基础方面包括服务发现和服务注册、负载均衡与路由、API 网关实现,以及服务间通信的总体结构。
另一个不可避免的领域是容器管理,尤其包括 Docker、Kubernetes 和服务网格,以及针对资源分配和扩展的精细化方法。
组织必须实施适当的日志记录、监控和追踪技术,以保留系统审计轨迹,并实现快速问题解决。这些可观测性措施可以保证分布式结构中的一致运行,同时支持高效排障。
1.2.3 边缘计算解决方案
边缘计算已经成为一种关键技术,它通过在靠近数据源的位置执行计算来降低延迟并减少带宽使用。其实施过程需要考虑基础设施的多个要素,例如边缘设备、硬件类型、用于通信的网络可用性、本地计算能力以及存储能力。
具体管理需求包括设备部署、固件交付、安全功能、性能跟踪和资源利用 [9]。
5G 网络与边缘计算的集成,为低延迟应用和服务带来了新的潜力。相关应用包括自动驾驶汽车和交通网络、工业互联设备和智能工厂、增强现实与虚拟现实,以及实时视频分析和处理。从这些用例可以看出,边缘计算已经成为当今基础设施解决方案中的基本组成部分。
1.2.4 数据存储与处理系统
当前与数据存储和计算相关的趋势,要求系统能够处理更大规模的结构化和非结构化数据集,同时不损害其功能性和可用性。
主要存储形式包括:
- 使用关系型数据库进行结构化存储;
- 使用 NoSQL 数据库进行灵活存储;
- 使用内存数据库进行实时存储;
- 使用对象存储系统处理非结构化数据。
这些系统彼此协同运行,以根据不同需求提供管理数据所需的全部功能。
现代数据处理框架彼此不同,也适用于不同类型的工作负载 [10]。在 Hadoop 生态系统中,组织通常使用批处理系统,也使用 Kafka 和 Flink 等流处理平台,还会使用混合处理解决方案以及特定机器学习工作流。这些框架帮助组织对大规模提取数据执行适当分析。
安全控制和管理政策是决定系统数据治理要求的原则。它们覆盖以下领域:访问控制与身份识别、加密、跟踪与监控、控制报告。
任何组织中的资源管理都需要结构和设计的一致性,并且需要定期检查和重构,以使其既满足业务目标,又保持安全、可扩展和高效。这依赖于对既有和潜在技术与解决方案、当前和未来安全需求、关键性能指标和改进领域、成本与资源分配、合规问题和最佳实践的持续评估 [11]。
这些核心基础设施技术已经演化出一种过程,组织通过这一过程进一步发展其 IT 环境。成功实施本文所定义的技术,依赖于对这些技术整体和个体层面的优势与劣势的理解,也依赖于针对每项技术制定实施和控制策略。它帮助组织开发能够推进组织目标和任务的系统与结构,同时不会引入不安全和不合规风险。
1.3 开发框架与工具
1.3.1 MLOps 框架
MLOps 框架是大型组织管理人工智能和机器学习解决方案的最佳实践 [12]。这些框架有助于缩小原型级机器学习构建与生产级系统架构之间的差距。
当今的 MLOps 框架有助于生成流水线、维护模型版本,并处理被部署版本。它们允许数据科学家和工程师以共生方式协作,并在机器学习流程的各个阶段实现成功的输出复现和质量保证。
核心 MLOps 框架提供多种功能,用于处理模型版本及其变体、实验、超参数和评分 [13]。这些系统会保留 lineage 信息记录,帮助团队复现当前结果,并洞察模型如何变化。
当新数据出现时,系统会建立自动化再训练流程,以不时保持模型相关性;同时,系统也会持续监控模型性能,识别真实环境条件中的任何变化。
MLOps 架构中一个近期且重要的组成部分是 feature store,也就是特征存储,用于存储和服务机器学习特征。这些系统帮助保持训练和推理的一致性,同时允许某些特征在不同模型和团队之间复用。实时特征计算以及训练时 point-in-time 正确特征,也属于特征存储管理的职责。
1.3.2 DevOps 集成
过去几年中,IT 集成已经演进,以满足机器学习系统的需求,同时确保遵循软件工程的底层原则 [14]。今天使用的集成方法形成了端到端实践,将基础 DevOps 实践与特定于机器学习工具和需求的实践结合起来。
CI/CD 流水线已经从仅应用于应用代码,发展为也应用于模型工件。这些流水线用于自动测试、验证和部署机器学习模型,同时也部署应用更新。
借助版本控制以及与大型模型文件的适当集成,维护多个模型副本和数据集副本已经变得更容易,也方便了包括工程师在内的团队成员协作 [15]。
Infrastructure as Code(IaC,基础设施即代码)最佳实践的采用已经推广到所有层级,包括机器学习基础设施需求。如今,公司通过基于代码的配置,保持对模型构建、开发和部署环境的可追踪设置。这使系统在不同环境之间保持一致,同时允许在必要时扩展计算规模。
1.3.3 模型开发工具
机器学习 / 人工智能模型开发工具是集成平台,为建模、实验、优化、测试和部署机器学习模型提供解决方案。这些工具也会连接一些最常用的框架和库,同时为机器学习流程提供定制元素 [16]。
这些工具既可以通过 notebook 支持敏捷开发,也可以通过集成开发环境支持生产级代码。对不同方法进行比较时,实验跟踪系统已经被纳入模型开发的核心部分。这些系统包含相对丰富的信息,包括所用模型架构、训练过程参数以及相应指标。
模型优化工具有助于维持模型的良好结果和处理速度。这类工具包括 AutoML 系统,它们能够揭示当前条件下最佳模型结构和超参数。它们还提供模型剪枝、量化以及针对特定目标部署平台进行优化的工具,例如面向终端设备或云端部署。
1.3.4 测试与验证框架
目前并不存在一种被证明适用于所有基于机器学习系统的软件测试框架,但以下已识别框架专门面向机器学习系统测试 [17]。这些框架包含数据验证、模型性能测试和模型验证等元素。
这些框架保证模型不仅达到数字化设计特征和业务规范,还能在生产中表现出可靠工程能力。
数据验证系统有助于确保输入机器学习流水线的数据在进入流水线时满足质量和一致性水平,并且在预处理、清洗后,以及在输入模型用于训练或预测前,都符合要求。这些系统会验证数据仍然符合预期,并符合定义好的 schema、特征分布和均值。它们还允许发现训练数据中的偏差,并检查可能影响模型的数据分布变化。
在现有模型验证框架中,模型的性能和行为会从多个方面进行评估 [3]。它们不仅评估传统的准确率和精确率指标,也会评估公平性,并确保计算过程遵守业务规则。
高级验证示例包括:
- 对特定弱点进行检查的对抗测试;
- 旨在发现可能攻击入口的攻击分析;
- 检查模型在困难条件下表现的压力测试。
质量保证流程已经适应并结合了软件测试中的典型要求,以及应用机器学习技术时所需的要求。一些场景包括:构建模型组件单元测试时检测模型问题,机器学习流水线集成测试,以及部署系统的端到端测试。
模型必须在性能测试中符合延迟和吞吐量基准,而监控系统则负责检查生产行为,并向团队发出相关问题信号。
随着机器学习系统经验的增长,开发框架和工具中的各个单项领域仍在不断发展 [18]。实施策略的选择取决于给定团队需求、需要支持的基础设施,以及需要交付的质量。为了达成这些目标,组织需要持续审查并调整工具策略,选择那些既有助于高效开发,又能在机器学习解决方案从创建到部署的全过程中保持产品质量的工具。
1.4 实时处理与部署
1.4.1 流处理技术
实时流处理如今被视为许多实时大数据系统的核心组成部分。这些系统通过实时处理数据流,为组织提供及时且可操作的洞察,使其能够基于数据采取行动。
Apache Kafka 正在成为流处理平台中的重要组成部分。它是一种分布式消息队列系统,可以处理高容量数据流,同时提供高可用性和扩展能力。
与基础流处理系统相比,还有更强大的框架,例如 Apache Flink 和 Apache Spark Streaming,它们能够实现更大范围的流处理,同时支持事件处理和分析 [19]。这些框架包括对有状态计算、窗口处理和 exactly-once 处理的支持。它们允许组织执行复杂处理,同时处理实时应用所需的大规模数据。
事件时间处理正在成为流处理系统中的关键方面,使组织能够以正确方式处理乱序数据,并响应迟到流事件。当前流系统具备强大的 watermarking 和迟到事件处理功能,因此无论数据到达速率如何,都能提供精确结果。这些系统还支持多个时间域,包括处理时间、事件发生时间等。
1.4.2 模型服务平台
当前模型服务平台已经被优化,以处理实时机器学习的苛刻需求。这些平台提供部署环境,使模型能够以相对标准的可靠性高效部署到生产中。
现代服务平台允许使用多种 serving pattern,例如用于预测服务的实时 serving、用于批量预测任务的 serving,以及两者混合模式。
机器学习模型的实际部署可以使用 TensorFlow Serving 以及相关平台完成 [20]。这些系统为机器学习模型提供模型版本控制、负载均衡和自动扩展解决方案,同时保持高性能。它们也支持不中断服务的模型更新,使组织可以在系统持续运行的情况下更新到较新版本。
现代模型服务平台包含处理复杂 serving 类型的功能。这包括 multi-model serving,即多个模型由单一服务基础设施提供服务,以共享资源。它们还支持其他模型服务功能,例如当实践者采用 ensemble architecture 时,让多个不同模型协同工作以进行预测。
1.4.3 监控解决方案
面向实时系统的综合监控解决方案,将传统基础设施监控与针对流应用和机器学习模型的专门能力结合起来。这些系统为系统健康状况、性能指标和业务 KPI 提供可见性,同时支持快速问题检测和解决。
现代监控解决方案整合了自动告警系统,可以在问题影响系统性能之前检测异常和潜在问题 [21]。
模型监控系统同时跟踪技术性能指标和业务相关指标。它们监控预测质量、特征分布和模型漂移,同时提供关于生产环境中模型行为的洞察。高级监控系统还整合可解释性工具,帮助团队理解模型决策并识别模型行为中的潜在问题。
实时监控系统必须处理高容量遥测数据,同时提供系统状态的即时可见性。这些系统通常为指标数据实现高效存储和检索机制,同时支持用于交互式分析的快速查询能力。它们还提供基于历史性能数据的长期趋势分析和容量规划能力。
1.4.4 性能优化工具
面向实时系统的性能优化工具会处理系统性能的多个方面,从基础设施利用率到应用层优化。这些工具提供关于系统瓶颈和优化机会的洞察,同时支持自动化和人工优化流程 [22]。现代优化工具整合机器学习技术,用于自动识别性能模式并提出改进建议。
Profiling 和 tracing 工具可以对系统行为和性能特征进行详细分析。这些工具为资源利用率、处理延迟和系统瓶颈提供可见性,同时支持开发期优化和生产监控。高级 profiling 工具支持跨微服务架构的分布式追踪,使团队能够理解端到端性能特征。
资源优化工具帮助组织在满足性能要求的同时最大化基础设施利用率。这些系统提供自动资源扩展、工作负载放置优化和容量规划能力。它们会结合历史使用模式和性能指标,对资源分配和扩展策略作出智能决策 [23]。
实时处理与部署领域仍在快速演进,这主要由对实时洞察和决策能力不断增长的需求推动。组织必须定期评估自身技术栈和优化策略,以确保满足性能要求,同时保持成本效率。
实时处理的成功需要认真关注系统架构、监控能力和优化流程,同时保持适应变化需求的灵活性。
实时处理栈中不同组件之间的集成也变得越来越重要。组织必须确保流系统、模型服务平台和监控解决方案之间的数据流顺畅,同时保持一致性能和可靠性。这种集成使实时系统能够高效运行,同时为系统行为和性能特征提供综合可见性。
1.5 实施策略
1.5.1 系统架构设计
现代机器学习基础设施的系统架构设计,需要在灵活性、可扩展性和可维护性之间进行审慎平衡。架构必须同时支持实验开发和生产部署,并确保一致性能与可靠性 [24]。
现代架构通常采用模块化方法,将数据摄取、处理、模型训练和服务组件之间的关注点分离。
为应对机器学习系统中的常见挑战,已经出现了一些架构模式。
Lambda 架构模式
Lambda 架构结合批处理和流处理能力,使系统既能进行实时处理,也能进行全面的批量分析。
Kappa 架构模式
Kappa 架构通过将所有数据都视为流来简化这一方法,在保持处理能力的同时降低系统复杂度。
设计考虑必须涵盖整个系统中的数据流模式。这包括数据摄取、存储、处理和服务机制,并需要特别关注数据一致性和可访问性要求。现代架构还整合数据版本控制和 lineage 跟踪能力,使团队能够在整个机器学习生命周期中理解并复现结果。
1.5.2 可扩展性考量
机器学习系统中的可扩展性涵盖多个维度,包括数据规模、模型复杂度和服务需求 [25]。组织必须设计能够横向扩展的系统,以处理不断增长的数据量和计算需求,同时保持成本效率。
这包括训练基础设施和服务基础设施两个方面,并需要根据需求提供适当的自动扩展机制。
资源管理系统在可扩展性策略中扮演关键角色。这些系统必须高效地将计算资源分配给不同工作负载,包括数据处理、模型训练、服务和监控。现代资源管理方法整合智能调度和优先级机制,确保关键工作负载获得必要资源,同时保持整体系统效率。
基础设施扩展策略必须同时考虑可预测负载和意外负载模式。这包括处理周期性批处理需求、服务负载突然激增,以及数据规模和处理需求逐步增长的机制。组织必须实施适当的监控和告警系统,确保扩展机制有效运行,同时保持成本控制。
1.5.3 安全与隐私措施
安全和隐私考量必须被整合进机器学习基础设施的整个过程,从数据收集和存储,到模型部署和监控。现代安全方法采用纵深防御策略,在多个层级实施控制,同时确保敏感数据和系统获得全面保护 [26]。这既包括技术控制,也包括组织流程,以在整个机器学习生命周期中维持安全。
数据保护措施必须同时处理静态数据和传输中数据。这包括加密机制、访问控制和审计日志能力。组织必须实施适当的数据治理框架,确保满足监管要求,同时为授权用户和系统保持数据可访问性。隐私保护机器学习技术已经出现,使模型训练和服务可以在保护敏感信息的情况下进行。
安全监控和事件响应能力必须与机器学习基础设施集成。这包括检测和响应安全事件的机制,从未授权访问尝试到潜在数据泄露。组织必须维护全面的安全文档,并定期更新安全措施,以应对新兴威胁和不断变化的需求。
1.5.4 案例研究与最佳实践
机器学习基础设施的真实世界实施,为有效策略和常见挑战提供了宝贵洞察 [27]。
金融服务组织已经实施了综合 MLOps 平台,这些平台在保持严格安全与合规要求的同时,支持快速模型开发和部署。这些系统通常在整个开发和部署流水线中整合自动化验证和合规检查机制。
医疗保健组织开发了专门基础设施,用于处理敏感患者数据,同时支持高级分析和机器学习应用 [28]。这些系统实施复杂的隐私保护机制,包括数据匿名化和访问控制系统,同时满足高性能和高可靠性要求。它们还整合全面审计日志和合规报告能力,以满足监管要求。
技术公司已经实施可扩展基础设施,用于处理海量数据和复杂模型架构。这些系统通常率先采用分布式训练和服务的新方法,为有效扩展策略提供洞察。它们通常整合复杂监控和优化能力,使系统性能和效率能够持续改进。
基于实践经验,机器学习基础设施实施的最佳实践已经逐步形成。组织应采用迭代式实施方法,从核心能力开始,并根据实际需求逐步扩展。这包括建立清晰的成功指标,并定期根据这些指标评估系统性能。
文档和知识共享在成功实施中发挥关键作用。组织必须维护全面文档,包括系统架构、操作流程和故障排除指南 [29]。定期培训和知识共享会议可以帮助团队跟上系统能力和最佳实践,同时促进不同角色和职责之间的有效协作。
变更管理流程也必须适配机器学习系统,既考虑代码变更,也考虑模型更新。这包括适当的测试和验证流程、部署策略以及回滚能力。组织应实施清晰流程,用于评估和批准变更,同时维护系统稳定性和可靠性。
实施策略的成功在很大程度上取决于组织因素,包括团队结构、沟通模式和文化方面 [30]。组织必须促进数据科学家、工程师和运维团队之间的协作,同时保持清晰职责和所有权。定期复盘和改进流程有助于团队识别和处理挑战,并提升系统有效性。
1.6 未来趋势与结论
1.6.1 新兴技术
机器学习基础设施格局仍在快速演进,几项新兴技术正在塑造其未来方向。
量子计算在机器学习中的应用显示出解决复杂优化问题、加速某些类型模型训练的潜力。早期实验表明,它在特定用例中可能带来收益,尤其是在分子建模和金融优化等领域。
联邦学习技术正在成熟,使分布式模型训练可以在维护数据隐私的同时进行 [31]。这些系统允许组织利用多个位置的数据,而无需集中敏感信息。高级联邦学习框架整合了复杂聚合机制和隐私保护技术,扩大了分布式学习系统的潜在应用范围。
AutoML 技术也在持续进步,出现了自动化架构搜索和超参数优化的新方法。这些系统越来越多地纳入神经架构搜索能力和多目标优化技术。新兴 AutoML 框架覆盖完整机器学习流水线,从特征工程到模型部署,降低了实现机器学习解决方案所需的专业门槛。
1.6.2 行业方向
行业趋势表明,针对机器学习工作负载的专用硬件加速器正受到越来越多关注。主要硬件制造商正在开发针对特定类型机器学习操作优化的定制处理器。这些发展有望显著提升训练和推理工作负载的处理效率与性能。
边缘计算的重要性仍在持续上升,组织正在实施复杂边缘处理能力。5G 网络、边缘计算和机器学习的融合,使需要低延迟处理和本地决策的新应用成为可能 [32]。制造业、医疗保健和自动驾驶汽车等行业正在推动基于边缘的机器学习系统创新。
可持续性考量在机器学习基础设施中也变得越来越重要。组织正关注节能计算方法,并优化资源利用,以减少环境影响。这包括开发更高效的训练算法,以及为计算资源实施功耗感知调度系统。
1.6.3 实施指南
成功实施机器学习基础设施,需要一种结构化方法,同时考虑当前需求和未来可扩展性 [33]。组织应首先为机器学习计划建立明确目标和成功指标。这包括识别具体用例、理解资源需求,并定义性能预期。
技术实施应遵循迭代方法,从核心能力开始,并基于经过验证的需求逐步扩展。组织应优先建立稳健的数据管理系统和基础模型开发能力,然后再实施更高级功能。这种方法使团队能够积累经验并验证假设,同时最小化初始复杂性。
组织层面的考虑对实施成功起着关键作用。团队应建立清晰角色和职责,同时促进不同专业之间的协作。定期培训和知识共享会议有助于保持团队能力,并确保有效利用基础设施能力。组织还应实施适当治理结构,以监督机器学习计划,并确保其与业务目标保持一致。
1.6.4 总结与建议
机器学习基础设施的演进为实施这些系统的组织带来了机遇和挑战。成功需要认真关注技术架构、组织流程和治理结构 [34]。组织应专注于构建灵活、可扩展的系统,同时维护安全性和运营效率。
面向实施机器学习基础设施的组织,关键建议包括:
建立强大的数据管理基础,对长期成功至关重要。组织应实施综合数据治理框架,并维护清晰的数据质量标准。这包括为数据收集、验证和版本控制建立适当流程。
对自动化能力的投资可以显著提升运营效率和可靠性。组织应优先实施自动化测试、部署和监控系统。这包括开发适当 CI/CD 流水线,并为技术指标和业务指标实施综合监控解决方案。
安全和隐私考量必须贯穿机器学习生命周期。组织应在保持系统可用性的同时,实施适当控制。这包括建立管理访问控制、维护审计日志以及确保符合相关法规的清晰流程。
组织应保持基础设施灵活性,以适应新兴技术和不断变化的需求。这包括设计模块化系统,使其能够纳入新能力,同时保持运营稳定性。定期评估新兴技术有助于组织识别潜在改进,并规划适当的采用策略。
持续改进流程可以帮助组织随着时间推移优化机器学习基础设施。这包括定期系统性能审查、用户反馈会议和技术评估。组织应维护清晰的系统性能指标,并定期评估改进机会。
机器学习基础设施的未来将继续带来系统能力方面的创新和改进。那些建立强大基础、同时保持未来发展灵活性的组织,将能更好地利用这些进步。成功需要持续关注技术和组织两个方面,同时保持通过机器学习应用交付业务价值的重点。
参考文献
- Aldoseri, A., Al-Khalifa, K.N., and Hamouda, A.M. (2024). AI-Powered innovation in digital transformation: key pillars and industry impact. Sustainability 16(5). MDPI AG: 1790. doi.org/10.3390/su1….
- Paul, J., Ueno, A., Dennis, C. et al. (2024). Digital transformation: a multidisciplinary perspective and future research agenda. International Journal of Consumer Studies 48(2). Wiley. doi.org/10.1111/ijc….
- Omrani, N., Rejeb, N., Maalaoui, A. et al. (2024). Drivers of digital transformation in SMEs. IEEE Transactions on Engineering Management 71. Institute of Electrical and Electronics Engineers (IEEE): 5030–5043. doi.org/10.1109/tem….
- Chatterjee, S. and Mariani, M. (2024). Exploring the influence of exploitative and explorative digital transformation on organization flexibility and competitiveness. IEEE Transactions on Engineering Management 71. IEEE: 13616–13626. doi.org/10.1109/tem….
- Latupeirissa, J.J.P., Dewi, N.L.Y., Prayana, I.K.R. et al. (2024). Transforming public service delivery: a comprehensive review of digitization initiatives. Sustainability 16(7). MDPI AG: 2818. doi.org/10.3390/su1….
- Schneider, M.H.G., Kanbach, D.K., Kraus, S., and Dabic, M. (2024). Transform me if you can: leveraging dynamic capabilities to manage digital transformation. IEEE Transactions on Engineering Management 71. IEEE: 9094–9108. doi.org/10.1109/tem….
- Gordon, M., Daniel, M., Ajiboye, A. et al. (2024). A scoping review of artificial intelligence in medical education: BEME guide no. 84. Medical Teacher 46(4). Informa UK Limited: 446–470. doi.org/10.1080/014….
- Hosseiny, B., Mahdianpari, M., Hemati, M. et al. (2024). Beyond supervised learning in remote sensing: a systematic review of deep learning approaches. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 17. IEEE: 1035–1052. doi.org/10.1109/jst….
- Boroujeni, S.P.H., Razi, A., Khoshdel, S. et al. (2024). A comprehensive survey of research towards AI-enabled unmanned aerial systems in pre-, active-, and post-wildfire management. Information Fusion 108: 102369. arXiv. doi.org/10.48550/AR….
- Vargas, O.S., De León Aldaco, S.E., Alquicira, J.A. et al. (2024). Adaptive network-based fuzzy inference system (ANFIS) applied to inverters: a survey. IEEE Transactions on Power Electronics 39(1). IEEE: 869–884. doi.org/10.1109/tpe….
- Yaqub, M.Z. and Alsabban, A. (2023). Industry-4.0-enabled digital transformation: prospects, instruments, challenges, and implications for business strategies. Sustainability 15(11). MDPI AG: 8553. doi.org/10.3390/su1….
- Truong, T.-C. and Diep, Q.B. (2023). Technological spotlights of digital transformation in tertiary education. IEEE Access 11. IEEE: 40954–40966. doi.org/10.1109/acc….
- Martínez-Peláez, R., Ochoa-Brust, A., Rivera, S. et al. (2023). Role of digital transformation for achieving sustainability: mediated role of stakeholders, key capabilities, and technology. Sustainability 15(14). MDPI AG: 11221. doi.org/10.3390/su1….
- Firouzi, F., Jiang, S., Chakrabarty, K. et al. (2023). Fusion of IoT, AI, Edge–Fog–Cloud, and blockchain: challenges, solutions, and a case study in healthcare and medicine. IEEE Internet of Things Journal 10(5). IEEE: 3686–3705. doi.org/10.1109/jio….
- Stoumpos, A.I., Kitsios, F., and Talias, M.A. (2023). Digital transformation in healthcare: technology acceptance and its applications. International Journal of Environmental Research and Public Health 20(4). MDPI AG: 3407. doi.org/10.3390/ije….
- Sergei, T., Arkady, T., Natalya, L. et al. (2023). Digital transformation enablers in high-tech and low-tech companies: a comparative analysis. Australian Journal of Management 48(4). SAGE Publications: 801–843. doi.org/10.1177/031….
- Saeed, S., Altamimi, S.A., Alkayyal, N.A. et al. (2023). Digital transformation and cybersecurity challenges for businesses resilience: issues and recommendations. Sensors 23(15). MDPI AG: 6666. doi.org/10.3390/s23….
- Marino-Romero, J.A., Palos-Sanchez, P.R., and Velicia-Martin, F. (2022). Improving KIBS performance using digital transformation: study based on the theory of resources and capabilities. Journal of Service Theory and Practice 33(2). Emerald: 169–197. doi.org/10.1108/jst….
- Baslyman, M. (2022). Digital transformation from the industry perspective: definitions, goals, conceptual model, and processes. IEEE Access 10. IEEE: 42961–42970. doi.org/10.1109/acc….
- Furr, N., Ozcan, P., and Eisenhardt, K.M. (2022). What is digital transformation? Core tensions facing established companies on the global stage. Global Strategy Journal 12(4). Wiley: 595–618. doi.org/10.1002/gsj….
- Costa, I., Riccotta, R., Montini, P. et al. (2022). The degree of contribution of digital transformation technology on company sustainability areas. Sustainability 14(1). MDPI AG: 462. doi.org/10.3390/su1….
- Pereira, C.S., Durão, N., Moreira, F., and Veloso, B. (2022). The importance of digital transformation in international business. Sustainability 14(2). MDPI AG: 834. doi.org/10.3390/su1….
- Vendraminelli, L., Macchion, L., Nosella, A., and Vinelli, A. (2022). Design thinking: strategy for digital transformation. Journal of Business Strategy 44(4). Emerald: 200–210. doi.org/10.1108/jbs….
- Teng, X., Wu, Z., and Yang, F. (2022). Research on the relationship between digital transformation and performance of SMEs. Sustainability 14(10). MDPI AG: 6012. doi.org/10.3390/su1….
- Xue, L., Zhang, Q., Zhang, X., and Li, C. (2022). Can digital transformation promote green technology innovation? Sustainability 14(12). MDPI AG: 7497. doi.org/10.3390/su1….
- Rupeika-Apoga, R. and Petrovska, K. (2022). Barriers to sustainable digital transformation in micro-, small-, and medium-sized enterprises. Sustainability 14(20). MDPI AG: 13558. doi.org/10.3390/su1….
- Mihu, C., Pitic, A.G., and Bayraktar, D. (2023). Drivers of digital transformation and their impact on organizational management. Studies in Business and Economics 18(1). Walter de Gruyter GmbH: 149–170. doi.org/10.2478/sbe….
- Malik, H., Chaudhary, G., and Srivastava, S. (2022). Digital transformation through advances in artificial intelligence and machine learning. Journal of Intelligent & Fuzzy Systems 42(2). SAGE Publications: 615–622. doi.org/10.3233/jif….
- Feroz, A.K., Zo, H., and Chiravuri, A. (2021). Digital transformation and environmental sustainability: a review and research agenda. Sustainability 13(3). MDPI AG: 1530. doi.org/10.3390/su1….
- Bresciani, S., Huarng, K.-H., Malhotra, A., and Ferraris, A. (2021). Digital transformation as a springboard for product, process and business model innovation. Journal of Business Research 128. Elsevier BV: 204–210. doi.org/10.1016/j.j….
- Kraus, S., Schiavone, F., Pluzhnikova, A., and Invernizzi, A.C. (2021). Digital transformation in healthcare: analyzing the current state-of-research. Journal of Business Research 123. Elsevier BV: 557–567. doi.org/10.1016/j.j….
- Magistretti, S., Pham, C.T.A., and Dell’Era, C. (2021). Enlightening the dynamic capabilities of design thinking in fostering digital transformation. Industrial Marketing Management 97. Elsevier BV: 59–70. doi.org/10.1016/j.i….
- Bughin, J., Kretschmer, T., and van Zeebroeck, N. (2021). Digital technology adoption drives strategic renewal for successful digital transformation. IEEE Engineering Management Review 49(3). IEEE: 103–108. doi.org/10.1109/emr….
- Gomez-Trujillo, A.M. and Gonzalez-Perez, M.A. (2021). Digital transformation as a strategy to reach sustainability. Smart and Sustainable Built Environment 11(4). Emerald: 1137–1162. doi.org/10.1108/sas….