GMI Cloud:全球 AI 产业的范式转移,从“模型为王”到“系统制胜” | 中国生成式 AI 大会

13 阅读19分钟

摘要

4 月 21 日至 22 日,以“奔赴 AGI 重塑未来”为主题的2026中国生成式AI大会(北京站)圆满举行。这场大会集结 73 位产学研投嘉宾,通过 1 场开幕式、3 场专题论坛、6 场技术研讨会,全景式解析 AI 产业的产业脉络、创新范式、Token经济与中国机会。议题跨度很大,从大语言模型、多模态模型、世界模型、智能体、AI 眼镜等前沿模型与应用,到数据、芯片、存储、通信、云服务等基础设施。

在这场信息密度超高的大会上,GMI Cloud 中国区总裁蒋剑彪带来了题为《全球 AI 产业的范式转移——从“模型为王”到“系统制胜”》的主题演讲。

蒋剑彪在演讲中指出,大模型从 2023 年进入大众视野,到 2026 年全面渗透到各行各业,行业竞赛的核心已发生根本性转移:不再是比谁的模型参数更大、谁的研究论文更多,而是看谁能构建一整套完整的系统工程能力。从单个模型的性能比拼,到数据、算力、调度、应用的全链路系统集成,AI产业的胜负手正在从“模型为王”转向“系统制胜”。

GMI Cloud 是英伟达在全球遴选的七家 Reference Platform NVIDIA Cloud Partner 之一,其总部位于美国硅谷,在美国、欧洲及亚洲多地拥有基于 H200、B300、GB200、GB300 等自建智算中心。

在蒋剑彪看来,2026 年的 AI 市场呈现出四大鲜明特征:第一,推理几乎完全取代训练,成为AI基础设施的主战场,客户需求从千卡集群迅速收缩至 256 卡级的轻量化推理集群,且追求低延时与高性价比;第二,AI Agent 从实验室走向生产,国内大厂对Token业务的规划已是十倍、百倍的增长,算力市场彻底转为卖方市场,客户不得不提前 8-10 个月锁定资源;第三,AI Coding 推动“一人公司”(OPC)爆发;第四,智算中心正从“存储仓库”重构为“算力工厂”,即面向大规模AI训练与推理的一体化 AI Factory,追求极致算力密度、能效比和 Token 吞吐量,实现统一编排与全局调度。

面对这四大浪潮,GMI Cloud 的应对策略清晰而坚决:在全球自建万卡集群,快速迭代 Inference Engine 平台,以帮助 AI 出海企业获取高性价比算力。据悉,不久后,GMI Cloud 还将上线全新产品「The GMI CLAW MARKETPLACE」。

值得一提的是,GMI Cloud 启动了全球AI探路者计划,面向全球 AI 领域 KOL、企业伙伴、社区伙伴共建出海内容生态,实现平台与创作者双向赋能;下半年,GMI Cloud 全球 AI Startup 加速计划也将陆续推出,入选团队将有机会获得价值万元美金的 Token、对接全球顶级 VC 及多地路演机会。

以下是演讲实录:

Part 1

GMI Cloud:英伟达的全球七家

Reference Platform NVIDIA Cloud Partner 之一

各位下午好,非常荣幸有机会与大家分享 GMI Cloud 在近两年 AI 快速发展历程中的一些经验。

从 2023 年大模型进入大众视野,到2026年它已逐步深入各行各业的生产环境之中。这四年的发展极为迅猛,从最初大家专注于各类算法的研究,到如今人手一个“小龙虾”,这种变化给我们带来了极为强烈的震撼。

我先简单介绍一下 GMI Cloud。GMI Cloud 是一家基于 AI Native(原生人工智能)的 NeoCloud 公司,我们在全球部署了大量的数据中心,这些数据中心全部采用最新的英伟达顶尖算力卡,包括 B300、GB300等。同时,GMI Cloud也是英伟达全球七家 Reference Platform NVIDIA Cloud Partner 之一。GMI Cloud 协同英伟达在全球多地构建 AI Factory。

除了拥有顶级算力的 AI Factory,GMI Cloud 还打造了面向 AI 应用的云原生算力管理调度平台——Cluster Engine。此外,因为现在越来越多的业务已经从底层的算力开始变成上层的 Token,我们在去年底又推出了新的产品 GMI Cloud Inference Engine(推理引擎),在全球市场,尤其是北美市场,集成全球最先进、最新的顶尖模型,提供 MaaS(模型即服务)服务,满足 AI 应用企业直接 API 调用需求。

接下来我重点讲一下 GMI Cloud 的整体布局。GMI Cloud 的总部在硅谷,所以我们在美国的算力布局是最密集的,其次是在欧洲,亚洲的日本、中国台湾,以及澳大利亚。在这些地区,我们陆续上线的集群基本上是基于英伟达的 H200、B300、GB200、GB300 比如即将在曼谷和中国台湾上线的集群就是基于 GB300,明年将在日本上线的集群则是基于 Vera Rubin 的。

Part 2

行业四大趋势:推理主战场、Agent 爆发 AI Coding 与“一人公司”、智算中心重构

如今,行业普遍认识到,AI 领域的发展节奏极快,几乎每隔半年或一年便会涌现出全新的热点。纵观整体AI市场,竞争焦点已发生根本性转移:从最初局限于算法本身的比拼、算法研究的较量,逐步演进为系统层面的综合能力竞争。

对于企业而言,若想在AI领域真正取得成功,单纯依靠构建一个出色的算法已远远不够。核心在于打造一整套完备的系统能力,唯有如此,方能在激烈的市场竞争中赢得主动权。

具体来看,这套系统能力包含四个层面:推理系统负责统一调度全球算力,在保证低延迟的同时最大限度优化吞吐与成本;Agent 协同系统支撑高 Token 比、复杂任务规划及多工具、多 API 的调用,实现智能体的快速构建与高效协作;智算基础设施系统将分散的智算中心整合成高效的“算力工厂”,提升资源利用率;全球化交付与安全系统则用一套架构覆盖全球,确保数据合规、链路可控、运维统一,让企业无需为每个区域重做一套 AI。唯有构建起这四个系统协同发力的完整能力,才能在这场竞争中真正实现“系统制胜”。

趋势一:模型能力决定上限,推理效率决定商业价值。

前几年,行业集群主要聚焦于训练任务,每个集群需配备大规模的 GPU 及存储资源。然而今年,一级市场上涌现的主要是各类推理服务,整个一级市场已转变为卖方市场。客户对推理集群的需求也从原先的千卡、两千卡规模,逐步下降至仅需 32 台(即 256 卡)即可满足。

这表明推理市场的竞争已日趋激烈,企业的关注重点正从单纯追求模型参数规模,转向落地效率、高性价比以及低延时推理服务,这一领域已成为行业角逐的主要战场。

趋势二:Token消耗呈现千倍级增长,推动推理系统革新。

2025 年,AI Agent 虽然已成为行业热点,但当时更多停留在概念讨论层面,尚未真正融入用户的工作与生活场景。因此,大多数人对 Agent 的感知并不强烈,它主要存在于AI初创公司的产品概念中。

然而,进入 2026 年,Agent 已开始从实验室走向实际生产环境。尤其是 Claude Code 等产品的问世,其后端任务复杂度极高,导致 Token 调用量的增长速度远超我们去年的预期。

去年,业界对 Token 增速的预期约为十倍。进入 2026 年,包括国内大量头部企业,其对 Token 业务的规划已达到十倍乃至百倍的增幅。需求的急剧膨胀,给底层基础设施带来了巨大压力。

与此同时,整个算力市场已由买方市场彻底转向卖方市场,GPU 资源供不应求。在此背景下,绝大多数海外客户已开始提前八至十个月锁定未来的定制化算力资源。2026 年最为显著的特征将是AI的规模化商业落地,Token 总量预计将飙升至千倍量级,这对整个推理架构构成了前所未有的挑战。

趋势三:AI Coding 大幅降低开发门槛,催生 OPC 模式爆发。

AI Coding 在去年已经比较热了,今年随着 Claude 推出 Claude Opus 4.5、Opus 4.6、Opus 4.7,在性能和效率方面越来越高,也推动了“一人公司”的爆发。

大量AI生成的音乐、数字人、短剧、视频乃至虚拟音乐会开始涌现,在 B 站等平台上随处可见,这些内容已逐步融入大众日常生活,且呈现出极高的制作水准。随着 2026 年下半年新一代多模态大模型的陆续发布,内容生产门槛将进一步降低。

趋势四:智算中心从“存储仓库”转向“算力工厂”。

以往数据中心主要聚焦于“通算”,如今已全面转向“智算”。智算的目标也从充当通算的替代品,逐步转向追求极致的算力密度、能效比以及 Token 吞吐量,这些已成为衡量智算中心的核心指标。

Vera Rubin 将于今年7月实现量产,预计明年全球范围内的 Vera Rubin 智算中心将陆续投入交付,其在 Token 吞吐能效比方面的表现将更为突出。

Part 3

GMI Cloud 的策略:

AI工厂、万卡集群与 Inference Engine

所以作为一家全球 AI Native Cloud 公司,GMI Cloud 如何去承载这些行业未来发展的趋势?

第一,我们会在全球构建AI工厂。 GMI Cloud 有最快的、最优的 GPU 供应链,具备顶级的渠道,基于与英伟达的深度联动,能够确保最新、最顶级的卡最快速供给,同时我们的交付速度以及性能调优都有助于提供给用户一个非常强大的 AI Factory。

第二,我们已在全球多地启动万卡集群的自建工作。 包括位于中国台湾桃园的机房,以及计划于明年在日本和泰国建设的数据中心,均已陆续开始部署 GB300 这一级别的顶尖算力。

Part 4

基于 Inference Engine 的优秀实践:

ModCraft——用 Agent 为《我的世界》生成模组

除了上述提到的算力中心的布局,GMI Cloud 还提供MaaS 级 Token 服务。 GMI Cloud Inference Engine(推理引擎)平台,旨在帮助用户快速获取最新模型及相应专属折扣,助力出海AI应用公司以较高性价比获得 Token 资源。

该平台具备广泛的模型聚合能力、原生托管支持以及生成优化功能。目前,已有众多用户基于 Inference Engine 平台开展业务,并打造出优秀的产品。

接下来,有请我们的优秀创作者代表,分享他如何借助 Inference Engine 平台进行产品创作。欢迎 ModCraft 团队:

大家好,我是刘澈,是 ModCraft 的负责人。与 GMI Cloud 合作以来,我们已取得多项产出。在介绍具体成果之前,先简要说明一下项目背景:我们致力于为《我的世界》游戏开发一款用于自动生成模组的 Agent。

部分观众可能对《我的世界》较为陌生。作为全球最知名的沙盒游戏之一,《我的世界》月活跃用户高达 2.04 亿。所谓模组(MOD),是指玩家将自创内容添加至游戏中的载体。例如,若要添加家具类物品(即玩家可放置、使用或交互的装饰性元素),或创作一个魔法主题、战斗主题的模组,开发者需先编写相应代码,随后安装至游戏,方可呈现预期内容。

根据统计数据,MOD 玩家达到 4400 万左右,而真正开发 MOD 的开发者却只有 10 万左右。为什么会有这样巨大差距?主要还是因为创意和开发实践之间存在鸿沟。开发《我的世界》模组并非易事。

开发者需要掌握 Java 编程语言与Gradle构建工具,深入研读游戏提供的 API 文档,甚至可能需要直接阅读游戏源代码,因为游戏版本迭代频繁,API 可能随之变动。此外,还需具备 3D 建模、音频工程等多方面的技能。

因此,在 Reddit、Discord 等社区中,经常可以看到大量玩家愿意付费委托开发者为其定制所需的模组。因此,我们做了这样一个平台,希望用 Agent 来为《我的世界》生成相关的模组。这样,用户就可以使用自然语言生成自己想要的东西。

以下是我们已部署在 ModCraft 平台上的一个演示案例。用户可创建一个新的工作空间,例如设计一个名为“海蓝宝石戒指”的物品。界面中央为 Canvas 模块,右侧为与 AI 对话的区域。以用户输入“我需要海蓝宝石及其配套工具”为例,AI 将解析其需求,判断除了海蓝宝石本身之外,可能还需要剑和镐子等辅助资源,随后在界面中央生成相应的结果。在此过程中,用户可对大量 nodes(节点)或 DSL(Domain Specific Language,领域特定语言)进行细致的调整与修改。

我们通过不同的 node 将游戏中的各类元素进行连接,例如 recipe(合成配方),并支持对其进行进一步的微调。此外,平台还支持为游戏内的物品生成相应的texture(纹理贴图),用户可选取某一纹理后进一步编辑,如添加黑色边框、将颜色调整为红色等。

如此一来,用户无需自行学习像素风格绘画,即可创作出符合自身需求的游戏内容。在所有纹理贴图生成完毕后,只需点击相应按钮,即可生成一个可在游戏中实际运行的模组。

以上为前端呈现的效果。那么,底层的Agent架构是如何设计的呢?当前行业内存在一个竞品,其架构相对简单:用户直接向大语言模型发送 prompt(提示词),模型直接返回代码并以此生成相关内容。

但是我们希望可以让用户看到中间态的东西,比如刚才看到的那些 nodes,并可以进一步对它进行微调,真正让 MOD 的创作由用户来决定。

为此,我们设计了一套全新的架构:用户输入的 prompt 经由大语言模型处理后,首先转化为一份被称为spec(规范文档)或 DSL 的中间表示。我们专门为《我的世界》模组生成编写了一套 DSL,其底层直接采用YAML语言实现。

该 DSL 支持约 63 种不同类型的 node(节点),涵盖此前展示的 items(物品)、blocks(方块)、recipe block(配方块)等,同时还支持自定义维度及生物群系的实现。

根据这样的架构,代码生成都是基于中间那个 DSL 想要的模块去生成的,所以问题会非常少。其次因为中间态的展示,让用户可以看到很多东西,可以真正意义上理解自己在生成什么,而且是 extendable(可扩展)和 rollback supported(支持回滚)的。

我们的整个架构就像 git commit(代码版本控制系统中的提交操作)一样,每次对话都会向中间表示中提交一部分内容并完成相应修改,用户可以随时 rollback 到之前的任一版本。

此外,spec 作为唯一真实来源,避免了多轮对话中意图丢失的问题。相比之下,竞品在大语言模型多轮交互后,往往会出现注意力分散、意图模糊等情况。而我们始终将中间层的 DSL 作为唯一真实来源,大语言模型可随时参考该中间表示,清晰知晓已生成的内容、待完成的部分以及各元素之间的关联关系。

此外,该架构采用数据库变更式的迭代方式,即小步迭代,用户可在测试当前生成内容正常运行后,再执行下一步操作。而竞品在生成过程中一旦出现问题,通常需要从头开始重新生成,无法回退至某一中间状态继续迭代。

讲完我们的技术架构之后,再讲一讲我们和 GMI Cloud 的合作。

我们借助 GMI Cloud的Inference Engine 调用了多种模型。由于业务面向北美市场,我们需要将服务器部署于北美,并保持前述的调用速度。

我们利用 GMI Cloud Inference Engine 调用不同模型以实现不同功能。例如,DSL 生成采用 Kimi 或 Arc,Java 文件生成则使用 Codex,因其代码生成能力较强。自然语言生成方面选用 Gemini,目前使用的是 Gemini Flash 2.0 Pro 版本,主要因其成本较低。未来我们也会在该平台上调用其他模型,如需升级,例如更换为 Banana 或其他模型,均可实现。

此外,我们的代码生成同样基于 Codex 模型。此处展示的是我们后端系统的部分实现。目前,我们均可直接通过 GMI Cloud 调用多种不同模型,且多数接口具备良好的兼容性。非常感谢大家,接下来把时间交还给剑彪。

Part 5

新品发布:

GMI Claw Marketplace

基于刚刚讲的一些产品应用场景,我们不久之后,即将推出一个新的产品——The GMI Claw Marketplace。

基于 Claw Marketplace,我们提供端到端的解决方案。在 Marketplace 上,我们为客户提供开发者工具包、Model Library、API Key 的管理,以及大量的生态插件和存储服务。该平台同时面向企业级客户与 AI 开发者两大场景:

· 面向企业和商业用户

我们将与用户共同探索解决方案,提供一键部署服务与自动化工作流,形成完整的打包方案,携手服务终端市场。

· 面向AI开发者和创作者

我们主要提供企业级托管服务,并针对 API 接口进行智能调度。在商业化变现与规模化扩展方面,我们将与开发者共同推进更深度的市场合作。

Part 6

GMI Cloud开放全球生态合作:

全球AI探路者计划+AI Starup加速计划

GMI Cloud 今年年初推出了一个全球生态计划。我们号召全球 AI 行业内的大牛和 AI 应用厂商伙伴、社区伙伴一起加入计划,共同关注 AI 出海、AI 产业发展。

GMI Cloud 在全球设有多个办公室,包括新加坡、日本、台湾、美国、香港等地,并将定期举办大量路演活动。

我们希望联合优质内容创作者,通过真实的产品体验与内容输出,打造AI出海的权威发声矩阵,实现平台与创作者之间的双向赋能。目前已有众多品牌合作伙伴加入,我们也诚挚邀请更多社区伙伴、AI应用厂商及基础模型厂商共同参与。

除了刚提到的“全球AI探路者计划”外,GMI Cloud 下半年还将在全球多个城市同时面向AI初创企业开启 “GMI Cloud 全球 AI Starup 加速计划” 。加入此计划的团队,将获得价值一万美金的Token支持,并一站式触达多家全球顶级VC,获得 GMI Cloud 及其计划其他合作伙伴提供的网络、数据库、算力等创业大礼包,届时大家可以以团队、企业组织的名义,参与计划进阶训练营,在全球多地进行路演。

以上,感谢大家的聆听,GMI Cloud 将持续关注中国 AI 企业出海与算力基础设施产业发展,请大家持续关注我们。

关于 GMI Cloud

由 Google X 的 AI 专家与硅谷精英共同参与创立的 GMI Cloud 是一家领先的 AI Native Cloud 服务商,是全球六大 Reference Platform NVIDIA Cloud Partner 之一,拥有遍布全球的数据中心,为企业 AI 应用提供最新、最优的 GPU 云服务,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的 AI 云服务解决方案。

GMI Cloud 凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的 GPU 产品阵容(如能够精准平衡 AI 成本与效率的 H200、具有卓越性能的 B200 以及未来所有全新上线的高性能芯片),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。此外,通过自研“Cluster Engine”、“Inference Engine”两大平台,完成从算力原子化供给到业务级智算服务的全栈跃迁,全力构建下一代智能算力基座。

作为推动通用人工智能(AGI)未来发展的重要力量,GMI Cloud 持续在 AI 基础设施领域引领创新。选择 GMI Cloud,您不仅是选择了先进的 GPU 云服务,更是选择了一个全方位的 AI 基础设施合作伙伴。