AI Infra 周刊|第 2 期
2026.04.04–04.10
算力·芯片·集群·底软·网络·训练推理·工程效率·数据中心
一、全球巨头算力军备竞赛
- 04.07|Anthropic 年化收入超 OpenAI,联合谷歌、博通建设 3.5GW TPU 算力集群
Anthropic 年化营收突破 300 亿美元,首次超过 OpenAI,企业客户贡献占比超 80%,商业化进度领跑行业。公司与谷歌云、博通达成战略合作,规划建设 3.5GW 超大规模 TPU 专用算力集群,预计 2027 年上线,用于下一代大模型训练与推理,并采用多厂商架构降低供应链依赖,保障长期稳定运行。
来源:CNBC、博通官方公告(2026.04.07)
📘 Infra 小科普
巨头联合建设专用算力集群,核心是通过芯片+云厂商+架构协同,实现算力供给稳定、成本可控,并降低对单一硬件厂商的依赖,是大模型规模化训练的标准基建模式。
- 04.09|马斯克投入200亿美元扩建芯片与算力制造基地
马斯克宣布投资 200 亿美元扩建芯片与算力制造基地,联合英特尔打造 2nm 先进制程全链条一体化工厂,目标年产 1 太瓦算力。产能将供给特斯拉、xAI、SpaceX 等生态业务,实现芯片制造到算力集群全栈自主,从源头摆脱供应链限制,显著改变全球 AI 算力与高端芯片的现有格局。
来源:路透社、英特尔官方声明(2026.04.09)
📘 Infra 小科普
从芯片制造到算力集群一体化布局,是科技巨头实现算力自主、摆脱外部限制的终极路径,可大幅提升供应链安全与长期成本优势。
- 04.10|Meta 与 CoreWeave 签署 210 亿美元多年算力大单
Meta 与专用 GPU 云厂商 CoreWeave 达成 210 亿美元多年期算力采购协议,主要用于 Llama 系列大模型的训练与推理服务。随着大模型规模与线上流量持续增长,专用算力云凭借高弹性、低延迟与专业化运维优势,持续承接头部科技公司刚需,成为 AI Infra 领域核心供给方。
来源:CoreWeave 官方公告、财联社(2026.04.10)
📘 Infra 小科普
专用 GPU 云厂商专注高算力、低时延、大集群调度,比通用云更适合大模型训练推理,已成为科技巨头外购算力的首选合作伙伴。
二、芯片与硬件基础设施
- 04.04|DeepSeek V4 全面采用华为昇腾芯片,彻底摆脱英伟达依赖
据外媒 The Information 4 月 4 日报道,受美国出口管制影响,DeepSeek 新一代大模型 V4 确定全面采用华为昇腾芯片,彻底脱离英伟达平台,成为国产算力重要里程碑。DeepSeek 联合华为、寒武纪耗时数月重写底层代码,针对昇腾架构深度优化,确保运行效率与性能不低于原英伟达平台。
来源:The Information(2026.04.04)
📘 Infra 小科普
大模型全面迁移国产芯片,需要重构算子、调度、通信等全栈底层逻辑,是国产AI芯片从“能用”到“好用”的关键验证,标志国产算力进入规模化替代阶段。
- 04.10|苹果自研 AI 服务器芯片 Baltra 曝光,台积电 3nm 代工
苹果自研数据中心级 AI 服务器芯片 Baltra 信息曝光,该芯片面向云端训练与推理场景设计,采用台积电 3nm 工艺代工,计划 2027 年投入量产。苹果由此正式加入 TPU、Maia、Trainium 等科技巨头自研 AI 芯片阵营,开始构建自主可控的云端算力硬件体系。
来源:The Elec、IT 之家(2026.04.10)
📘 Infra 小科普
科技巨头自研AI服务器芯片,核心是实现硬件与模型深度协同,提升能效比、降低成本,并掌握底层架构主导权,是未来AI算力竞争的核心壁垒。
三、网络和高速互联
- 04.10|UALink 联盟发布 200G 高速互联规范,打破 NVLink 垄断
UALink 联盟正式发布 200G 高速互联规范,面向大规模 AI 集群加速器互联场景设计,单舱可支持 1024 个加速器高速互通,旨在打破现有专有互联方案垄断。目前多家硬件厂商已启动产品研发,预计年内进入商用交付,推动 AI 集群互联走向开放与标准化。
来源:UALink 联盟官网(2026.04.10)
📘 Infra 小科普
开放高速互联标准可降低厂商锁定、提升硬件兼容性,是万卡级AI集群规模化、低成本部署的关键基础,直接决定训练效率与集群扩展性。
四、底软(驱动、固件、CANN、RSM、调度底层)
- 04.08|Meta 发布 KernelEvolve,AI Agent 全自动优化底层计算内核,底软开发进入自主进化时代
Meta 推出基于 AI Agent 的底层算子自动优化框架 KernelEvolve,可自主完成算子搜索、编译、调优、验证全流程,无需人工干预即可生成高性能计算内核,兼容 GPU 等多种异构硬件。相比传统专家手工调优,该方案将迭代周期从数周压缩至小时级,大幅提升集群算力利用率,推动底软开发进入自主进化新阶段。
来源:Meta arXiv 论文(2026.04.08)
📘 Infra 小科普
底层算子优化直接决定硬件算力利用率,传统依赖专家经验,用AI Agent自动生成可大幅提升效率、降低门槛,是底软技术的重要演进方向。
- 04.09|谷歌与英特尔深化 AI 基建合作,聚焦 Xeon CPU 与 IPU 协同
谷歌与英特尔宣布多年深度战略合作,围绕至强 Xeon CPU 与定制 IPU 推进云端与 AI 基础设施底层优化。双方将在调度、虚拟化、异构计算、集群效率等方向联合研发,进一步强化 x86 架构在 AI 训练与推理场景的竞争力,完善多元算力底座与生态协同能力。
来源:英特尔新闻室(2026.04.09)
📘 Infra 小科普
CPU + 专用加速器(IPU)的异构协同,是AI基础设施的主流架构,可在调度、管控、IO等环节提升整体效率,降低全链路成本与延迟。
五、训练推理算法(训练框架、分布式、KV Cache、内存优化、调度)
- 04.06|vLLM v0.19.0 发布,适配 HuggingFace v5、多模态优化与 CPU KV 缓存卸载
vLLM 发布 v0.19.0 版本,全面适配 HuggingFace Transformers v5 接口,强化多模态模型推理性能,并新增工业级 CPU KV 缓存卸载功能。该能力可将闲置 KV 缓存换出至 CPU 内存,显著缓解长上下文显存瓶颈,提升高并发场景吞吐量与服务稳定性,是大模型部署的关键效率升级。
来源:vLLM GitHub Release(2026.04.06)
📘 Infra 小科普
CPU KV 缓存卸载是推理阶段核心优化技术,通过显存与内存分层调度,可在不增加硬件的情况下提升并发与上下文长度,直接降低部署成本。
- 04.07|阿里通义发布 FIPO 算法,优化长文本推理稳定性
阿里通义实验室推出 FIPO 强化学习算法,面向长文本与多步复杂推理场景优化,解决传统 RL 机制下推理步数受限、逻辑链条易断裂等痛点。该算法在 32B 规模模型上完成验证,可有效提升复杂任务完成率,降低推理异常概率,增强长上下文生成的可靠性与逻辑一致性。
来源:阿里通义实验室官网(2026.04.07)
📘 Infra 小科普
长文本与多步推理的稳定性直接影响企业级应用效果,优化推理链条与步数限制,可提升模型在客服、代码、数据分析等场景的实用率。
- 04.09|英特尔白皮书:AI 进入 “重推理时代”,CPU 权重提升
英特尔发布 AI 基础设施白皮书指出,当前 AI 算力结构已发生关键转变,推理资源需求全面反超训练,行业正式进入“重推理时代”。至强 CPU 在推理编排、调度、服务化部署与边缘场景中的价值持续提升,CPU+加速器的异构架构成为主流,推动算力配置更趋高效合理。
来源:英特尔官方白皮书(2026.04.09)
📘 Infra 小科普
推理算力需求远超训练,是AI商业化落地的必然结果。CPU在管控、调度、弹性部署上不可替代,与加速器组合成为最具性价比的生产架构。
六、数据中心、液冷 / 供电基建
- 04.10|OpenAI 暂停英国 “星际之门” 超算项目,高电价与监管成算力基建瓶颈
OpenAI 正式暂停英国 Stargate“星际之门”超大规模数据中心项目,核心原因是当地工业电价过高,同时监管审批与电网接入存在较大不确定性。该事件凸显超大规模 AI 算力基建对能源成本、电网容量、政策环境的高度依赖,也反映全球算力布局正面临现实约束与挑战。
源:CNBC、BBC(2026.04.10)
📘 Infra 小科普
超大规模AI数据中心功耗可达吉瓦级,电价、电网、政策是选址核心三要素,任何一项不达标都会直接导致项目延期或终止。
七、AI Infra 重磅八卦
04.09|腾讯云厂商宣布涨价,终结20年算力降价历史
作为天天跟AI云算力打交道的人,这周最直观的感受就是:靠免费、低价算力过日子的时代,真的彻底结束了。
本周腾讯云正式发布调价公告,自 5 月 9 日起对 AI 算力、容器 TKE、EMR 三大核心产品统一上调 5%,已购用户在当前计费周期不受影响,续费周期按新价执行。
这不是单独一家的动作,而是国内三大云厂商的集体转向:
- 阿里云:3 月 18 日官宣,4 月 18 日起执行,AI 算力(平头哥真武 810E 等)涨 5%–34%,智算存储 CPFS涨 30%;
- 百度智能云:同日官宣,4 月 18 日起执行,AI 算力涨 5%–30%,并行文件存储涨 30%;
- 腾讯云:本周官宣,5 月 9 日起执行,AI 算力、容器、EMR统一涨 5%。
背后原因一线开发者都深有体会:AI 大模型与智能体爆发,算力需求暴增;GPU、HBM、供电、散热成本一路走高,云厂商再也撑不住长期低价补贴。
这一轮涨价,直接覆盖我们最常用的AI 算力、高性能存储、容器、大数据服务,以前随处可见的免费试用、新人补贴、地板价计费,正在全面退出市场。
身边不少个人开发者、学生和小团队都在感慨:以前做实验、跑模型、练手项目,随便薅点免费额度就能跑起来;现在每一步都要算成本,算力彻底回归商品属性。
对我们来说,模型轻量化、推理优化、显存省流、成本精细化管控,已经从 “加分项” 变成 “必修课”,以后拼的不只是模型效果,更是谁能算力成本跑得更稳、更省、更高效。
来源:腾讯云官网公告、阿里云官网公告、百度智能云官网公告、中国经济网、IT 之家(2026.03.18–2026.04.09)
八、一个 AI Infra 干货科普
什么是 CPU KV 缓存卸载?为什么 vLLM 一更新就被圈里刷屏?
CPU KV 缓存卸载,是当前大模型推理最实用的显存救星技术。
简单说:当 GPU 显存不够存放全量 KV Cache 时,系统自动把不活跃、低优先级的 KV 数据换出到 CPU 内存,需要时再快速换回 GPU。
它解决的核心问题:
- 长上下文、多模态模型 KV 体积爆炸,GPU 显存极易占满
- 高并发场景下吞吐量上不去、服务容易 OOM
- 硬件成本居高不下,小团队/个人开发者扛不住
和普通内存交换不同,工业级 KV 卸载必须满足:
- 块级别粒度调度,不整段搬运
- 低延迟、预取、异步换入换出
- 和 PagedAttention、连续批处理深度协同
- 不显著降低端到端吞吐
本期 vLLM 0.19.0 上线的 CPU KV 卸载,正是这类生产级优化,能让单卡跑得更长、并发更高、成本更低,也是为什么一更新就被工程圈重点关注。