微软公布三款未依赖 OpenAI 打造的自研 AI 模型:用于语音识别的 MAI-Transcribe-1、用于语音合成的 MAI-Voice-1,以及用于图像生成的 MAI-Image-2。这些模型可通过微软 Foundry 平台及 MAI Playground 平台使用。每款模型的研发团队均不足 10 人,GPU 资源消耗也较竞争对手减少一半。此次发布是由穆斯塔法・苏莱曼领导的 MAI Superintelligence 部门的首个成果。
MAI-Transcribe-1:识别精度创纪录的语音转文字模型
MAI-Transcribe-1 是一款语音转文本模型,在 FLEURS 基准测试的 25 种语言中,实现了最优的单词错误率(WER),平均 WER 仅为 3.8%。微软称,该模型在全部 25 种语言上超越 OpenAI 的 Whisper-large-v3,在 22 种语言上优于谷歌 Gemini 3.1 Flash,在 15 种语言上超过 ElevenLabs Scribe v2 与 OpenAI 的 GPT-Transcribe。
FLEURS(通用语音表征小样本学习评估)是用于评测语音识别模型的多语言基准测试,覆盖 102 种语言。该基准基于 FLoRes-101 语料库构建,每种语言包含约 12 小时标注音频数据。
MAI-Transcribe-1 架构将基于 Transformer 的文本解码器与双向音频编码器相结合。模型支持最大 200MB 的 MP3、WAV、FLAC 格式文件。批量转录速度比微软 Azure Fast 现有服务快 2.5 倍。说话人分离、上下文偏移与流式模式等功能将在后续推出。
说话人分离是指自动识别并区分音频中不同说话人内容的技术,常用于会议、访谈及通话转录。
MAI-Transcribe-1 已在 Copilot 语音模式与微软 Teams 中进行对话转录测试。这意味着微软计划在旗下产品中用该模型替代第三方及旧版自研语音识别模型。
MAI-Voice-1:毫秒级语音合成
MAI-Voice-1 是一款语音合成模型,可在 1 秒内生成 60 秒自然流畅的音频。模型能在长文本中保持说话人音色一致,用户可通过微软 Foundry,仅用数秒样本音频即可创建自定义音色。定价为每百万字符 22 美元。
该模型直接与 ElevenLabs、Resemble AI 及一众语音 AI 初创公司竞争。微软的优势在于分发能力:所有 Foundry 开发者可通过与 GPT-4、Claude 相同的 API 调用该模型。
MAI-Image-2:跻身图像生成第一梯队
MAI-Image-2 在 Arena.ai 平台排名前三,生成速度较前代 MAI-Image-1 至少快一倍。定价为每百万输入文本令牌 5 美元、每百万输出图像令牌 33 美元。该模型已接入必应与 PowerPoint。
全球最大广告集团 WPP 成为首批企业合作伙伴,获得大规模调用 MAI-Image-2 的 API 权限。
此次发布最出人意料的是团队规模。苏莱曼表示,语音识别模型由 10 人团队打造,图像生成团队不足 10 人。速度、效率与精度的提升主要来自模型架构与训练数据,而非工程师数量。
“我的理念一直是:我们需要更少的人,但赋予更大权限。因此我们采用极度扁平化的架构。”
苏莱曼对比称,Meta 倾向大规模招人,为部分研究员开出 1 亿至 2 亿美元薪酬。小团队打造世界级模型,将彻底改变 AI 产业成本结构:若仅用 10 名工程师与一半标准 GPU 就能做出顶级转录模型,微软 AI 业务的边际成本结构将与竞争对手形成根本差异。
与 OpenAI 协议调整,走向技术独立
在 2025 年 10 月修订与 OpenAI 协议前,微软无权自主研发通用人工智能(AGI)或超级智能。2019 年初始协议中,微软以云基础设施换取 OpenAI 模型授权。当 OpenAI 开始与软银等公司合作、拓展微软以外算力后,双方重新修订条款。
新协议允许微软自研前沿模型,同时保留 OpenAI 所有技术授权至 2032 年。合作仍在继续,但潜台词清晰:微软正在构建独立研发能力。
前沿模型指在文本、图像、音频、推理等一个或多个领域处于技术领先的 AI 模型,其界定并非固定阈值,而是相对现有最优系统的位置。
定价策略:低于亚马逊与谷歌
微软有意将定价定在亚马逊与谷歌之下。MAI-Voice-1 每百万字符 22 美元,MAI-Image-2 每百万输入令牌 5 美元。苏莱曼称这是深思熟虑的决策。
该策略对微软具备合理性:其可将模型研发成本分摊至庞大企业客户群体。同时,GPU 消耗减半的模型也能降低 Teams、Copilot、必应、PowerPoint 等自有产品成本。今年以来微软股价下跌约 17%,投资者愈发要求其证明在 AI 基础设施上投入的数千亿美元能带来回报。
下一步:自研大语言模型
苏莱曼明确表示,语音转录、语音合成与图像生成只是开始。被问及是否会打造可与 GPT 正面竞争的前沿大语言模型时,他给出肯定答复:微软将在所有模态打造世界级模型,追求完全技术独立。
MAI Superintelligence 部门于 2025 年秋季正式成立。苏莱曼公布了 GPU 集群扩容的多年路线图,萨提亚・纳德拉还亲自飞往迈阿密参加团队会议,商讨未来 2–4 年的 AI 独立计划。
打造具备竞争力的前沿大语言模型,在复杂度、数据量与算力成本上属于完全不同量级的任务。本次发布的均为专用模型,专注音频与图像,不具备 ChatGPT 与 Copilot 核心的通用推理与文本生成能力。苏莱曼拥有组织授权、纳德拉支持与合约自由,但目前尚未在微软内部完成 AI 领域最难的核心技术验证。
2026 年 3 月,苏莱曼不再负责 Copilot 日常运营,该职务由前 Snap 高管雅各布・安德鲁接任,安德鲁出任 Copilot 消费与商业业务执行副总裁。