2026年,多模态人工智能将重塑企业。IT部门需升级基础设施,支持文本、图像、音频等融合处理。企业应模块化集成,关注AI协作能力和治理,以安全、合规地利用多模态AI实现竞争优势。
译自:When AI Starts Seeing and Hearing, IT Must Start Rethinking
作者:Derek Ashmore
2026 年,企业将发现自己正处于人工智能 (AI) 的剧烈变革之中。仅仅依靠文本的模型统治市场的时代已经一去不复返。下一波浪潮将是多模态人工智能:这些系统能够像我们一样读取、聆听、看见和理解世界。对于 IT 领导者来说,这种转变与其说是新奇,不如说是对工作方式的根本性重塑。但毫无疑问:其对基础设施、治理和组织的要求是沉重的。
从“键入命令”到“展示和告诉系统”
想象一下,一位工程师将智能手机对准一台发出奇怪振动的嘈杂泵,并描述情况。人工智能不仅解析语音;它还能在视觉上识别硬件,聆听振动模式,查阅历史传感器日志,并立即调出正确的维护手册。这就是多模态人工智能在企业工作流程中的承诺。系统将融合文本、图像、音频、视频,甚至是传感器输入,赋予它们类似人类的上下文感知能力。
再举一个金融领域的例子:合规团队将不再需要跨电子邮件、聊天记录和录音通话进行单独搜索。一个真正多模态的系统将允许使用单个查询,该查询能理解语气、视觉线索、口头陈述和文本记录,从而标记出仅靠文本的工具会遗漏的隐藏风险。这不仅仅是便利;这是一种范式转变。
多模态人工智能将模糊人机交互的界限。员工不再需要导航菜单或输入僵化的提示,而是可以直接进行对话、手势或展示视觉内容。界面和意图之间的界限将消失。
IT 部门必须准备好系统,不仅能接受命令,更能感知上下文。这意味着需要升级架构以处理图像和音频流,适应新的数据管道,并管理远超传统文本工作负载的计算负载。
为何“能够看见和听见”的智能体将重塑工作流程
多模态的价值不仅在于更丰富的信息输入,还在于更丰富的协作。在未来的智能体工作流程中,一个 AI 智能体将总结视频会议,另一个将扫描实时捕捉的白板草图,还有一个将根据这些组合的上下文生成代码或文档,所有这些都不需要人工重新输入。这是工作从“请求助手”转变为“与理解你所说或所展示的一切的同事合作”的地方。
然而,这一飞跃带来了重大的技术和运营挑战。首先是基础设施:多模态模型比仅文本的模型消耗更多的数据、内存和计算资源。集成传感器流、视频源和音频日志意味着需要改造管道、存储和网络。其次是互操作性:你现有的系统可能无法原生支持图像或语音输入。第三是团队技能:工程师不仅必须精通语言模型,还必须精通视觉、音频和组合模态。没有准备,脆弱的系统、延迟瓶颈和试点失败的风险将急剧上升。
IT 如何在不破坏生产的情况下保持适应性
如果多模态人工智能如海啸般袭来,IT 团队就必须构建灵活性,而不是僵化的整体。最安全的方法是模块化集成。部署 API,使用容器化工作负载并采用智能体框架,这样就可以在不影响生产系统稳定的情况下,替换或升级新功能。
通过将多模态功能视为插件,组织可以在技术不断发展的同时保持敏捷。将基础设施视为一个不断发展的平台,而不是一个固定的项目。
与此同时,重点必须从模型专业知识转移到整个组织的 AI 熟练度。开发人员、分析师和业务用户需要学会如何与 AI 协作。如何构建多模态问题,审查结果,以及验证推理过程。
与其追逐每一个新模型,不如投资于像规范驱动开发和智能体工程这样的实践,使 AI 系统能够自然地融入现有的软件开发生命周期 (SDLC) 和治理框架。
IT 领导者还必须建立安全的实验区域——AI 沙箱,用于测试多模态模型(使用合成数据或非关键数据),试用智能体编排框架,并逐步提升团队能力。这种方法可以降低风险,同时加速采用。
核心原则:治理、透明度和道德
当你的 AI 能够像阅读一样看见和听见时,风险领域会成倍增加。道德治理不能是事后诸葛亮;它必须从一开始就构建进去。组织必须定义有关数据来源、模型使用和人工监督的策略。
每个多模态智能体都需要一个负责任的所有者,一个可审计的保管链,以及其决策逻辑的文档。没有这些,公司就会面临有偏见的结果、不透明的推理和监管的麻烦。
SDLC 必须嵌入治理检查点:对视觉和音频输入的偏差测试,对使用混合模态做出的决策的可解释性分析,以及对高影响力工作流程的人工循环验证。智能体的自主性必须受到限制:自主性策略确保没有多模态智能体在没有可追溯的人工确认的情况下采取行动。提示、图像和音频输入以及智能体输出的审计跟踪不再是锦上添花,而是必需品。
透明度即信任。用户必须能够看到系统做出决策的原因,例如通过模型卡、版本日志或输入-输出记录。如果你无法用业务术语解释你的多模态智能体是如何得出建议的,那么它就不应该投入生产。
真实的失误,揭示了危险区域
最近的治理失败事件说明了粗制滥造的采用成本。员工将敏感文件上传到公共 AI 工具,教会我们必须将提示流量视为生产数据。一些公司在黑箱模型产生有偏见的结果且无法解释其决策时,面临了监管审查。
自主智能体在无人监督的情况下修改数据,暴露了整个行动链的可视性差距。这不再是推测性风险;这是运营现实。对于 IT 领导者来说,这意味着治理必须从设计时开始,而不是作为部署后的附加项。
要竞争,就利用多模态 AI 创造价值,而不仅仅是新奇
胜出的公司将不会专注于模型;它们将专注于业务摩擦。将多模态 AI 嵌入现有工作流程,而不是追逐炫酷的功能,才能产生真正的影响。
例如,在营销领域,能够同时分析语音情感、图像和聊天记录的智能体,比人口统计模型更能精确地识别行为模式。然后,人类营销人员的角色将转向战略和道德;AI 负责规模和速度。
成功的案例总是从小处着手,明智地扩展,并构建跨职能部门。模型和智能体必须被视为服务——版本化、容器化、API 优先,而不是一次性的原型。可扩展性源于架构和协作,而不是炒作。
IT 的未来之路:从守门人到赋能者
多模态 AI 的未来既令人兴奋,又充满挑战。IT 领导者必须领导基础设施的重写、技能的转型和治理的设计。但回报是奠定了基础,员工可以在此基础上与系统自然互动,工作被重新构想,不再是命令和控制,而是与智能智能体协作,并且竞争优势来自于速度、上下文和适应性。
到 2026 年,IT 的问题不是是否采用多模态 AI。问题在于它们能以多快的速度这样做,而不会引发混乱。获胜的组织会将多模态 AI 视为一种战略产品,而不是技术实验。它们将构建能够聆听、看见、理解和行动的系统。它们将以过去保留给基础设施和安全的那种纪律来治理这些系统。因为企业的未来不仅是智能的,更是多模态的。