摘要
知乎最近的项目 “AI 中场时刻” ,汇聚了众多科技行业一线从业者、研究者,对 AI 行业开展年度联合复盘。本文为 GMI Cloud 首席产品专家 Archie Xu 在 “作为一名科技从业者,如何总结你的 2025?” 问题下的作答,其中包含了在技术快速迭代更新背景下,对云计算行业、算力服务与大模型领域的思考。
2025 年,对于一个 AI 行业从业者,注定是不平凡的一年。对行业而言,可谓风起云涌,由 DeepSeek 引发的开源 LLM 模型海啸,让整个行业洗牌;对我自己而言,经历了从传统云大厂到 AI Infra Startup 的转身,经历着从团队管理者转向 Super IC 角色的阵痛。
我一直在基础软件和云计算行业从事产品工作,深耕超过 15 年,从产品经理一路成长为产品线负责人,在离开大厂前,带领几十人的团队负责集团内外的算力基础设施业务,连续 3 年业绩保持 100%的增长。虽然看起来很好,但是我从 2024 年开始已经感到深深的隐忧。
传统 CPU 算力停滞,GPU 算力虽然增长迅猛,但是由于美国禁售,我所在的大厂反倒不如小公司灵活,整体业务发展遇到严重瓶颈。是继续待下去,还是寻找新的出路,这是摆在面前的难题。随着 AI 的蓬勃发展,我意识到必须抓住机遇,及时求变,于是 2025 年毅然从大厂离职,进入一家 RA NCP 厂商 GMI Cloud 开启新的职业生涯。
下面和大家说一下我 2025 年工作中的一些体会:
01
GPU 算力为王的时代已经来临
我是一名云计算的老兵,整个职业生涯都在围绕算力展开。先和大家回顾一下算力的发展:
-
早期:虚拟化软件,由于 Intel 多核 CPU 的快速发展,服务器 CPU 算力过剩,通过全虚拟化/半虚拟化技术,构建虚拟机,将服务器算力按照 CPU 核数切割构建虚拟机,从而更加充分的利用服务器算力。
-
中期:私有云/公有云,为虚拟机配套构建 SDN 网络和 SDS 存储,面向多租户提供算力网络存储服务,通过极致利用服务器资源和高售卖使用比来榨取价值。
-
晚期:裸金属+容器服务,为减少虚拟机开销,通过加装 SmartNIC/DPU 卸载 SDN/SDS 能力,为客户提供高性能的裸金属服务,并在允许客户通过部署容器平台来进一步提升资源利用率。
事实上,疫情结束后,进入 2023 年,云计算行业就陷入了停滞,整个行业是典型的存量红海竞争,对于云计算而言,传统的上游业务,如电商、游戏、视频都没有新的增长点。
然而,ChatGPT 的发布引爆了 AI,LLM 的 scaling law 让计算机行业看到新的曙光,大模型创业公司层出不穷。
回顾 2023 年,主要的算力增长都来自于 GPU 算力,传统 CPU 算力乏善可新,而背后正是大模型公司的训练所需要的海量 GPU 算力资源。
进入 2024 年,除了大语言模型外,多模态又映入眼帘,AIGC/GenAI 成为最时髦的名词,除了训练所需,推理使用的算力开始逐渐增长。
时间进入 2025 年,DeepSeek-R1 的横空出世,让模型推理应用走入了千行百业,算力增长的先锋转向推理,MCP/Agent 面向应用的协议和场景成为焦点。
我深处行业的旋涡中心,自然感受极其真切。GPU 算力的增长是基础设施服务行业的唯一动力已经是不争的事实,然后从 2022 开始的禁售让这个行业感受到深深的寒意。
作为团队的负责人,我需要对业务指标负责,虽然基础设施服务的竞争已经白热化,但是在一个蓬勃发展的市场中,参与竞争的企业理论上可以把产业不停做大,但是前提是你必须有足够的生产资料。
GPU 算力就是基础设施服务的生产资料,美国为了遏制中国发展,2022 年开始禁售 GPU 算力,而彼时基于 LLM 的模型创业在国内方兴未艾,这导致谁有 GPU 算力谁能抢到市场份额。
我还记得,当时最大的感受就是,所有 GPU 算力服务器的交货时间都是不停的跳票,而 GPU 服务器的价格在最疯狂的时候溢价超过 50%,谁手里有 GPU 服务器,谁能拿到货,谁就是王者,这一时期的典型现象就是很多传统企业开始进入这个行业,比如大家耳熟能详的“莲花味精”事件。
这个过程是随着时间不断演进的,以我所在大厂为例:刚开始是延期交货或者无法按照约定数量交货,到后面就是延期 3-6 月交货,要知道,延期这么久等于任何商机都无法承接;接下来就是断供;再后来,阉割版 GPU 服务器横空出世。
2025 年上半年,对于我所在的公司,H100/H200 的算力已经完全无法获得,H20 勉强能够拿到少量资源,这导致基础设施服务的生意无以为继,也正式这种困境,让我陷入深深的思考。
对于个人来说,基础设施服务是自己付出心血的事业所在,AI 时代已经来临,行业刚需是存在的,但是我却不能深度参与行业的发展,如何破局?
鲁迅先生曾说“世界上本没有路,走的人多了自然就成了路”。既然国内无法采购 GPU 服务器,那么离岸方案就成了很多企业的必然选择。同时,AI 基础设施外迁和 AI 服务出海也已经成为共识。
也正式上述的经历和对国内基础设施市场发展的思考,让我意识到,是时候换一个工作环境,既然国内公司拿不到算力,那么我就去能拿到算力的公司,GMI Cloud 也是这个时候进入我的视野。
“它山之石可以攻玉”,2025 年七月,我离开了供职多年的大厂,加入 AI Infra 创业公司,开启人生新的旅程。
之前在大厂,我是团队的一号位,经过多年的打造,团队人员分工明确,协作充分,具备成熟的产品矩阵和研发节奏,个人的工作重心是如何保持算力业务的高速发展和保证团队成员合理的新陈代谢,工作内容聚焦在预算制定、资源规划、商机沟通、业务落地和团队管理。
在 GMI Cloud,我不再是管理者,而是 IC 角色,负责 Cluster Engine(GMI Cloud 的核心产品线之一),这是一个面向 AI 的算力服务产品线,个人的工作重心是如何面向潜在客户打造有差异化竞争力的 AI 算力产品,工作内容是原始需求收集、产品需求撰写、产品 RoadMap 规划及研发项目落地管理。
对我而言,前者的工作是聚焦团队产出最大化,需要高举高打,稳步前进;而后者则聚焦产品创新和业务突破,虽然我在云计算行业浸淫多年,但是什么是 AI 时代的算力服务,现在无人能给出现成答案,而这只能在与其他竞争对手刺刀见血的厮杀中不断总结获得,可谓向死而生。
02
文生图/图生图进入 ComfyUI 时代
除了 DeepSeek 的横空出世,对于我而言,2025 年上半年印象深刻的莫过于 ComfyUI。
我真正接触文生图软件的时间较晚(2024 年),现在看来,主要原因是我不是一个二次元爱好者。
那时,最成熟的文生图/图生图软件莫过于 SD-webUI,最成熟的社区是 Civitai。促使我学习并了解文生图软件的原因也很简单,因为我团队当时要打造一个基于消费级显卡的应用市场,而文生图应用就是这个市场最大的应用场景,而背后的商业模式本质是卖 GPU 算力资源。
为了推广产品,我团队还和一位知名设计师签订了独家协议,帮助该设计师开发培训课程软件,而回报则是设计师的课程和学员则独家使用我开发的算力应用平台进行后续的教学。
起初,设计师团队是规划基于 SD-webUI 来进行教学培训的,然后就在培训课程正式上线前,设计师团队改变初衷,基于 ComfyUI 进行教学培训。
于此同时,我为了增强产品知名度,邀请外部知名文生图网红来制作培训课程,免费在公司的自媒体平台发布,而网红制作培训课程使用的也正是 ComfyUI。
随着我对 SD-webUI 和 ComfyUI 了解的越来越深入,我也终于了解为什么大家会转向使用 ComfyUI 而不是 SD-webUI。
简单来说,两者最大的不同就是 ComfyUI 是基于“工作流”来进行文生图创作,如果只需要简单的通过提示词进行文生图创作,那么 SD-webUI 足以,但是如果想对生图过程进行强干预,那么基于“工作流”的 ComfyUI 就成为你的首选,因为你可以通过控制工作流中的节点来精确干预并控制文生图的过程,从而实现更复杂,更具创意的图片。
另外,我当时感触最深的就是,ComfyUI 的工作流可以直接导出为 Json 文件,并支持 API 调用,非常适用于生成环境部署使用,比如通过创建工作流支持对特定场景(如电商)图片的修改,在调试正确后,通过导出并部署工作流就可以将这个功能以 API 的形式交付客户使用,这是 SD-webUI 完全不具备的能力。
事实上,由于 ComfyUI 这种基于工作流的模块设计,它早已不局限于文生图/图生图领域,通过加载三方节点插件,已经可以支持文生视频和视频编辑的能力。
关于 GMI Cloud
由 Google X 的 AI 专家与硅谷精英共同参与创立的 GMI Cloud 是一家领先的 AI Native Cloud 服务商,是全球六大 Reference Platform NVIDIA Cloud Partner 之一,拥有遍布全球的数据中心,为企业 AI 应用提供最新、最优的 GPU 云服务,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的 AI 云服务解决方案。
GMI Cloud 凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的 GPU 产品阵容(如能够精准平衡 AI 成本与效率的 H200、具有卓越性能的 B200、GB300 以及未来所有全新上线的高性能芯片),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。此外,通过自研“Cluster Engine”、“Inference Engine”两大平台,完成从算力原子化供给到业务级智算服务的全栈跃迁,全力构建下一代智能算力基座。
作为推动通用人工智能(AGI)未来发展的重要力量,GMI Cloud 持续在 AI 基础设施领域引领创新。选择 GMI Cloud,您不仅是选择了先进的 GPU 云服务,更是选择了一个全方位的 AI 基础设施合作伙伴。
如果您想要了解有关 GMI Cloud 的信息
请关注我们并建立联系