继阿里百度后，腾讯云宣布5.9号起AI算力开始涨价，靠免费、低价算力过日子的时代彻底结束了。AI Infra 周刊｜第

AI Infra 周刊｜第 2 期

2026.04.04–04.10

算力·芯片·集群·底软·网络·训练推理·工程效率·数据中心

一、全球巨头算力军备竞赛

04.07｜Anthropic 年化收入超 OpenAI，联合谷歌、博通建设 3.5GW TPU 算力集群

Anthropic 年化营收突破 300 亿美元，首次超过 OpenAI，企业客户贡献占比超 80%，商业化进度领跑行业。公司与谷歌云、博通达成战略合作，规划建设 3.5GW 超大规模 TPU 专用算力集群，预计 2027 年上线，用于下一代大模型训练与推理，并采用多厂商架构降低供应链依赖，保障长期稳定运行。

来源：CNBC、博通官方公告（2026.04.07）

📘 Infra 小科普

巨头联合建设专用算力集群，核心是通过芯片+云厂商+架构协同，实现算力供给稳定、成本可控，并降低对单一硬件厂商的依赖，是大模型规模化训练的标准基建模式。

04.09｜马斯克投入200亿美元扩建芯片与算力制造基地

马斯克宣布投资 200 亿美元扩建芯片与算力制造基地，联合英特尔打造 2nm 先进制程全链条一体化工厂，目标年产 1 太瓦算力。产能将供给特斯拉、xAI、SpaceX 等生态业务，实现芯片制造到算力集群全栈自主，从源头摆脱供应链限制，显著改变全球 AI 算力与高端芯片的现有格局。

来源：路透社、英特尔官方声明（2026.04.09）

📘 Infra 小科普

从芯片制造到算力集群一体化布局，是科技巨头实现算力自主、摆脱外部限制的终极路径，可大幅提升供应链安全与长期成本优势。

04.10｜Meta 与 CoreWeave 签署 210 亿美元多年算力大单

Meta 与专用 GPU 云厂商 CoreWeave 达成 210 亿美元多年期算力采购协议，主要用于 Llama 系列大模型的训练与推理服务。随着大模型规模与线上流量持续增长，专用算力云凭借高弹性、低延迟与专业化运维优势，持续承接头部科技公司刚需，成为 AI Infra 领域核心供给方。

来源：CoreWeave 官方公告、财联社（2026.04.10）

📘 Infra 小科普

专用 GPU 云厂商专注高算力、低时延、大集群调度，比通用云更适合大模型训练推理，已成为科技巨头外购算力的首选合作伙伴。

二、芯片与硬件基础设施

04.04｜DeepSeek V4 全面采用华为昇腾芯片，彻底摆脱英伟达依赖

据外媒 The Information 4 月 4 日报道，受美国出口管制影响，DeepSeek 新一代大模型 V4 确定全面采用华为昇腾芯片，彻底脱离英伟达平台，成为国产算力重要里程碑。DeepSeek 联合华为、寒武纪耗时数月重写底层代码，针对昇腾架构深度优化，确保运行效率与性能不低于原英伟达平台。

来源：The Information（2026.04.04）

📘 Infra 小科普

大模型全面迁移国产芯片，需要重构算子、调度、通信等全栈底层逻辑，是国产AI芯片从“能用”到“好用”的关键验证，标志国产算力进入规模化替代阶段。

04.10｜苹果自研 AI 服务器芯片 Baltra 曝光，台积电 3nm 代工

苹果自研数据中心级 AI 服务器芯片 Baltra 信息曝光，该芯片面向云端训练与推理场景设计，采用台积电 3nm 工艺代工，计划 2027 年投入量产。苹果由此正式加入 TPU、Maia、Trainium 等科技巨头自研 AI 芯片阵营，开始构建自主可控的云端算力硬件体系。

来源：The Elec、IT 之家（2026.04.10）

📘 Infra 小科普

科技巨头自研AI服务器芯片，核心是实现硬件与模型深度协同，提升能效比、降低成本，并掌握底层架构主导权，是未来AI算力竞争的核心壁垒。

三、网络和高速互联

04.10｜UALink 联盟发布 200G 高速互联规范，打破 NVLink 垄断

UALink 联盟正式发布 200G 高速互联规范，面向大规模 AI 集群加速器互联场景设计，单舱可支持 1024 个加速器高速互通，旨在打破现有专有互联方案垄断。目前多家硬件厂商已启动产品研发，预计年内进入商用交付，推动 AI 集群互联走向开放与标准化。

来源：UALink 联盟官网（2026.04.10）

📘 Infra 小科普

开放高速互联标准可降低厂商锁定、提升硬件兼容性，是万卡级AI集群规模化、低成本部署的关键基础，直接决定训练效率与集群扩展性。

四、底软（驱动、固件、CANN、RSM、调度底层）

04.08｜Meta 发布 KernelEvolve，AI Agent 全自动优化底层计算内核，底软开发进入自主进化时代

Meta 推出基于 AI Agent 的底层算子自动优化框架 KernelEvolve，可自主完成算子搜索、编译、调优、验证全流程，无需人工干预即可生成高性能计算内核，兼容 GPU 等多种异构硬件。相比传统专家手工调优，该方案将迭代周期从数周压缩至小时级，大幅提升集群算力利用率，推动底软开发进入自主进化新阶段。

来源：Meta arXiv 论文（2026.04.08）

📘 Infra 小科普

底层算子优化直接决定硬件算力利用率，传统依赖专家经验，用AI Agent自动生成可大幅提升效率、降低门槛，是底软技术的重要演进方向。

04.09｜谷歌与英特尔深化 AI 基建合作，聚焦 Xeon CPU 与 IPU 协同

谷歌与英特尔宣布多年深度战略合作，围绕至强 Xeon CPU 与定制 IPU 推进云端与 AI 基础设施底层优化。双方将在调度、虚拟化、异构计算、集群效率等方向联合研发，进一步强化 x86 架构在 AI 训练与推理场景的竞争力，完善多元算力底座与生态协同能力。

来源：英特尔新闻室（2026.04.09）

📘 Infra 小科普

CPU + 专用加速器（IPU）的异构协同，是AI基础设施的主流架构，可在调度、管控、IO等环节提升整体效率，降低全链路成本与延迟。

五、训练推理算法（训练框架、分布式、KV Cache、内存优化、调度）

04.06｜vLLM v0.19.0 发布，适配 HuggingFace v5、多模态优化与 CPU KV 缓存卸载

vLLM 发布 v0.19.0 版本，全面适配 HuggingFace Transformers v5 接口，强化多模态模型推理性能，并新增工业级 CPU KV 缓存卸载功能。该能力可将闲置 KV 缓存换出至 CPU 内存，显著缓解长上下文显存瓶颈，提升高并发场景吞吐量与服务稳定性，是大模型部署的关键效率升级。

来源：vLLM GitHub Release（2026.04.06）

📘 Infra 小科普

CPU KV 缓存卸载是推理阶段核心优化技术，通过显存与内存分层调度，可在不增加硬件的情况下提升并发与上下文长度，直接降低部署成本。

04.07｜阿里通义发布 FIPO 算法，优化长文本推理稳定性

阿里通义实验室推出 FIPO 强化学习算法，面向长文本与多步复杂推理场景优化，解决传统 RL 机制下推理步数受限、逻辑链条易断裂等痛点。该算法在 32B 规模模型上完成验证，可有效提升复杂任务完成率，降低推理异常概率，增强长上下文生成的可靠性与逻辑一致性。

来源：阿里通义实验室官网（2026.04.07）

📘 Infra 小科普

长文本与多步推理的稳定性直接影响企业级应用效果，优化推理链条与步数限制，可提升模型在客服、代码、数据分析等场景的实用率。

04.09｜英特尔白皮书：AI 进入 “重推理时代”，CPU 权重提升

英特尔发布 AI 基础设施白皮书指出，当前 AI 算力结构已发生关键转变，推理资源需求全面反超训练，行业正式进入“重推理时代”。至强 CPU 在推理编排、调度、服务化部署与边缘场景中的价值持续提升，CPU+加速器的异构架构成为主流，推动算力配置更趋高效合理。

来源：英特尔官方白皮书（2026.04.09）

📘 Infra 小科普

推理算力需求远超训练，是AI商业化落地的必然结果。CPU在管控、调度、弹性部署上不可替代，与加速器组合成为最具性价比的生产架构。

六、数据中心、液冷 / 供电基建

04.10｜OpenAI 暂停英国 “星际之门” 超算项目，高电价与监管成算力基建瓶颈

OpenAI 正式暂停英国 Stargate“星际之门”超大规模数据中心项目，核心原因是当地工业电价过高，同时监管审批与电网接入存在较大不确定性。该事件凸显超大规模 AI 算力基建对能源成本、电网容量、政策环境的高度依赖，也反映全球算力布局正面临现实约束与挑战。

源：CNBC、BBC（2026.04.10）

📘 Infra 小科普

超大规模AI数据中心功耗可达吉瓦级，电价、电网、政策是选址核心三要素，任何一项不达标都会直接导致项目延期或终止。

七、AI Infra 重磅八卦

04.09｜腾讯云厂商宣布涨价，终结20年算力降价历史

作为天天跟AI云算力打交道的人，这周最直观的感受就是：靠免费、低价算力过日子的时代，真的彻底结束了。

本周腾讯云正式发布调价公告，自 5 月 9 日起对 AI 算力、容器 TKE、EMR 三大核心产品统一上调 5%，已购用户在当前计费周期不受影响，续费周期按新价执行。

这不是单独一家的动作，而是国内三大云厂商的集体转向：

阿里云：3 月 18 日官宣，4 月 18 日起执行，AI 算力（平头哥真武 810E 等）涨 5%–34%，智算存储 CPFS涨 30%；
百度智能云：同日官宣，4 月 18 日起执行，AI 算力涨 5%–30%，并行文件存储涨 30%；
腾讯云：本周官宣，5 月 9 日起执行，AI 算力、容器、EMR统一涨 5%。

背后原因一线开发者都深有体会：AI 大模型与智能体爆发，算力需求暴增；GPU、HBM、供电、散热成本一路走高，云厂商再也撑不住长期低价补贴。

这一轮涨价，直接覆盖我们最常用的AI 算力、高性能存储、容器、大数据服务，以前随处可见的免费试用、新人补贴、地板价计费，正在全面退出市场。

身边不少个人开发者、学生和小团队都在感慨：以前做实验、跑模型、练手项目，随便薅点免费额度就能跑起来；现在每一步都要算成本，算力彻底回归商品属性。

对我们来说，模型轻量化、推理优化、显存省流、成本精细化管控，已经从 “加分项” 变成 “必修课”，以后拼的不只是模型效果，更是谁能算力成本跑得更稳、更省、更高效。

来源：腾讯云官网公告、阿里云官网公告、百度智能云官网公告、中国经济网、IT 之家（2026.03.18–2026.04.09）

八、一个 AI Infra 干货科普

什么是 CPU KV 缓存卸载？为什么 vLLM 一更新就被圈里刷屏？

CPU KV 缓存卸载，是当前大模型推理最实用的显存救星技术。

简单说：当 GPU 显存不够存放全量 KV Cache 时，系统自动把不活跃、低优先级的 KV 数据换出到 CPU 内存，需要时再快速换回 GPU。

它解决的核心问题：

长上下文、多模态模型 KV 体积爆炸，GPU 显存极易占满
高并发场景下吞吐量上不去、服务容易 OOM
硬件成本居高不下，小团队/个人开发者扛不住

和普通内存交换不同，工业级 KV 卸载必须满足：

块级别粒度调度，不整段搬运
低延迟、预取、异步换入换出
和 PagedAttention、连续批处理深度协同
不显著降低端到端吞吐

本期 vLLM 0.19.0 上线的 CPU KV 卸载，正是这类生产级优化，能让单卡跑得更长、并发更高、成本更低，也是为什么一更新就被工程圈重点关注。