AI Infra 周刊|第 4 期
2026.04.18–04.24
算力·芯片·集群·底软·网络·训练推理·数据中心·工程效率·框架·模型架构
1. 04.24|DeepSeek‑V4 预览版发布,原生适配国产算力,Infra 级长文本优化落地
DeepSeek‑V4 预览版正式上线,推出 Pro/Flash 双版本,全系标配1M 上下文,采用MoE 架构 + DSA 稀疏注意力 + Token 压缩,显著降低显存与算力开销;模型实现昇腾、寒武纪等国产算力平台 Day‑0 全栈适配,原生支持华为 CANN 框架,完成从 CUDA 生态到国产底软的全面迁移,可在国产芯片上实现高效训练与规模化推理,助力 “模型–芯片–框架” 国产化闭环跑通。
🟦 AI Infra 干货科普
DeepSeek V4 完全适配国产算力,是在万亿参数 MoE 架构与百万 Token 超长上下文的高门槛下,一次难度极高但战略意义重大的全栈迁移:其难度集中在彻底脱离 CUDA 生态、重写数百核心算子并完成跨框架精度对齐、突破国产芯片在分布式互联与显存调度上的硬件瓶颈,需重构数千万行代码、攻克集群通信延迟与稳定性难题;而其意义则在于实现 “芯片 - 框架 - 模型” 全链路自主可控,打破海外算力垄断与断供风险,验证国产算力可承载全球顶级大模型的能力,为中国 AI 产业树立软硬件协同标杆,推动国产算力生态从 “可用” 向 “好用” 跨越,并加速形成独立的技术标准体系,夯实新质生产力的算力底座。
2. 04.22 | 谷歌 Cloud Next '26 发布第八代 TPU 8t/8i,训练推理芯片首次拆分
在 2026 Google Cloud Next 大会上,谷歌正式发布第八代 TPU 产品矩阵,首次将训练与推理场景拆分为两款独立芯片:TPU 8t 专注大规模分布式训练,单集群可扩展至 9600 芯片,峰值算力达到 121 EFLOPS,并配备 2PB 统一共享内存;TPU 8i 则面向高并发推理场景优化。这一架构拆分,标志云厂商正式从通用算力走向训练/推理专业化细分时代。
来源:Google Cloud Next '26(2026.04.22)
🟦 AI Infra 干货科普
训练/推理芯片架构拆分,是云厂商为应对大模型不同负载特征做出的专业化设计。训练侧重高算力、强互联、大内存带宽;推理侧重高并发、低时延、性价比,拆分后能大幅提升硬件利用率、降低整体算力成本。
3. 04.21–04.22 | Meta 投资10亿美元新建俄克拉荷马AI数据中心,PUE低至1.1
Meta 官方宣布启动超大规模 AI 专用数据中心建设,总投资额超 10 亿美元,重点服务下一代大模型训练与推理业务。该数据中心采用多项节能技术,设计 PUE 低至约 1.1,在高密度算力集群下仍保持极高能效,是全球科技巨头算力基建持续加码的重要信号。
来源:Meta 官方公告(2026.04.21)
🟦 AI Infra 干货科普
PUE(Power Usage Effectiveness)是数据中心能效核心指标,计算公式为数据中心总能耗 / IT 设备能耗。数值越接近 1 能效越高,AI 集群功耗巨大,PUE 每降低 0.1 都能带来巨额电费节省与碳排放优化。
4. 04.23 | 微软 180 亿美元加码澳洲 AI 基建,南半球算力枢纽成型
微软宣布投资180 亿美元(约 250 亿澳元) 建设澳大利亚 AI 算力与网络安全集群,面向大模型训练、推理与云服务,强化亚太与南半球算力布局,与谷歌、AWS 抢滩区域算力主权。
来源:微软官方公告(2026.04.23)
🟦 AI Infra 干货科普
区域算力枢纽是云厂商在全球关键地理区域布局的超大规模 AI 算力中心集群,核心价值在于:
-
低时延:就近服务亚太、大洋洲企业与政府业务,训练 / 推理延迟显著降低;
-
算力主权:满足各国数据本地化、算力自主可控的监管要求,规避跨境数据风险;
-
韧性与竞争:分散单一区域算力风险,抢占新兴市场,形成对 AWS、谷歌的区域压制;
-
战略支点:作为全球算力网络的重要节点,支撑跨国大模型训练、多区域容灾与业务扩张。
5. 04.19 | 谷歌与 Marvell 合作研发内存处理单元(MPU),直击推理“内存墙”
据行业消息,谷歌正与芯片厂商 Marvell 联合研发面向大模型推理的内存处理单元(MPU),将计算逻辑下沉至内存层,直接缓解大模型推理中核心的“内存墙”问题,提升长上下文、高并发场景下的带宽利用效率,代表下一代 AI 硬件架构的重要探索方向。
来源:行业消息(2026.04.19)
🟦 AI Infra 干货科普
内存墙指算力增长速度远超内存带宽增长,导致芯片大量时间等待数据。MPU(内存处理单元)通过近内存计算架构,减少数据搬运开销,是当前破解大模型推理内存瓶颈的关键硬件路线。
6. 04.23 | FlashAttention 4 beta10 发布,MLA稀疏Attention性能显著提升
作为大模型底层核心加速算子,FlashAttention 4 推出重要更新,针对 MLA 稀疏注意力实现深度优化,在高端显卡上算力利用率大幅提升,推理速度显著快于传统方案,成为长文本模型推理的底层标配技术。
来源:FlashAttention GitHub(2026.04.23)
🟦 AI Infra 干货科普
FlashAttention 是 IO 感知的注意力算子优化技术,通过分块计算减少显存读写,大幅降低显存占用并提升计算速度,现已成为 vLLM、SGLang 等主流推理框架的底层加速基础。
7. 04.21 | SGLang 曝高危漏洞 CVE-2026-5760,可致远程代码执行
主流推理框架 SGLang 被披露高危安全漏洞,攻击者可通过构造恶意输入实现远程代码执行,CVSS 9.8 高危。官方已给出临时修复方案,对生产环境部署有重要警示意义。
来源:SGLang GitHub 安全公告(2026.04.21)
🟦 AI Infra 干货科普
大模型推理框架的模板注入漏洞,常出现在模型加载、输入解析环节。生产环境需开启沙箱隔离、输入校验、最小权限运行,避免加载未知来源模型文件,防止远程代码执行风险。
8. 04.24|OpenAI 发布 GPT-5.5 + Workspace Agents,重塑企业研发工作流
GPT-5.5 定位为任务执行引擎,在长链路、多步骤、自主迭代工程任务上大幅领先;同步推出Workspace Agents,支持团队共享、流程可视化搭建、工具自动编排,把需求→代码→测试→部署全流程智能化,显著提升软件工程交付速度与质量。
来源:OpenAI 官方新闻(2026.04.23)
🟦 AI Infra 干货科普
Workspace Agents 是面向企业级的 AI 工程化基础设施,核心价值在于把大模型能力从 “单次调用” 升级为 “流程化执行”。它提供统一调度、权限管控、上下文持久化、工具链打通与观测复盘能力,让 AI 不再是独立调用,而是深度嵌入研发、运营、数据分析等真实工作流,大幅降低多步骤任务的人工介入成本,是 AI 从模型层走向工程落地层的关键基础设施形态。
9. 04.23|国内三巨头全面推进 Harness Engineering(约束工程),重构 AI 落地效率
阿里、字节、腾讯同步强化Harness Engineering体系建设,聚焦模型调度、上下文管控、工作流约束、工具链协同,通过精细化工程手段最大化释放模型价值,行业正式从模型竞赛转向工程化落地竞赛,核心目标是稳定、高效、低成本规模化服务。
来源:36 氪、中国企业家杂志、腾讯云 / 火山引擎公开分享(2026.04.22–04.23)
🟦 AI Infra 干货科普
Harness Engineering(约束工程)可理解为AI 智能体的 “操作系统 + 缰绳 + 调度系统”。若把大模型比作 “烈马”,Harness 就是驾驭它的全套系统,不优化模型本身,而是通过约束、流程、记忆、工具、权限与反馈回路,让模型在生产环境里可控、稳定、低成本、可规模化地跑业务流程,是当前 AI 从 “能用” 走向 “好用、规模化” 的核心工程范式
10. 04.21 | Qwen3.6-Max-Preview 发布,新增preserve_thinking优化超长KV链
通义实验室发布 Qwen3.6-Max-Preview 预览版,新增 preserve_thinking 机制以保留模型多轮思考过程、提升复杂任务表现,但同时带来更长的 KV Cache 链条与更高显存压力,需要 Infra 层面前缀缓存、分片调度、动态丢弃等策略配合才能高效部署。
来源:通义实验室官方发布(2026.04.21)
🟦 AI Infra 干货科普
preserve_thinking 会保留模型思维链中间结果,显著增加上下文长度与 KV Cache 占用。Infra 层面需通过前缀缓存、动态 KV 淘汰、分片调度等手段缓解显存压力,平衡模型效果与部署成本。
八、AI Infra 轻八卦
04.23|特斯拉20亿美元匿名AI硬件收购,圈内炸锅:直指英伟达Rubin + 谷歌TPU
特斯拉在2026 Q1 10‑Q季报附注低调曝光一笔20亿美元匿名AI硬件收购,全股票支付、90%金额与落地里程碑强绑定,财报电话会完全不提,保密级别拉满。
时间点极度敏感:谷歌当天刚发布TPU 8t/8i,训练推理双芯片拆分,单集群算力达121 EFLOPS,正式对外大规模放量;另一边英伟达下一代Vera Rubin芯片被巨头疯抢,台积电CoWoS产能被英伟达锁定超60%,ABF基板与HBM全线紧缺,2027年前高端算力一卡难求已成定局。
当前全球AI算力需求年增超80%,但高端芯片产能增速仅60%,英伟达对OpenAI、微软优先供货、溢价+排他,特斯拉长期拿不到足额H100/H200配额,FSD、Optimus、xAI三重算力刚需被逼到必须绕开限购、锁死2027–2028产能。
特斯拉内部测算,全球当前AI芯片年产能仅能满足其未来需求的2%,Optimus量产即可能吃掉全球一年新增算力,自研AI5芯片虽已流片,但远水难解近渴。
叠加台积电2nm产能已排至2028年,外部采购完全卡脖子,马斯克直言“不自己掌控算力,就会被瓶颈卡死”。
业内一致解读:这笔收购不是买公司,是抢下一代算力船票。
标的大概率是手握Rubin优先供货权+TPU 8全栈优化能力的硬件方案商,团队多来自谷歌TPU与英伟达核心部门,一次性补齐双路线顶级算力,堪称算力军备赛的“暗箱抢核”名场面。
九、一个 AI Infra 干货科普
训练与推理芯片专业化拆分,是 AI 算力进入精细化时代的核心标志
过去 AI 芯片多采用通用架构,同时承担训练与推理任务,难以兼顾两种负载的核心需求。随着大模型规模化落地,云厂商开始将训练与推理芯片完全独立设计,代表产品如谷歌第八代 TPU 8t(训练专用)与 TPU 8i(推理专用)。
-
训练芯片:侧重高算力、强互联、大内存带宽,支持数千芯片集群扩展,满足超大参数量模型的分布式训练需求,通常搭配液冷、超大容量 HBM 与统一共享内存。
-
推理芯片:侧重高并发、低时延、性价比,优化在线服务场景的请求处理效率,降低长文本与高并发下的显存与算力消耗。
这种架构拆分可显著提升硬件利用率、降低算力成本、减少功耗浪费,是 AI Infra 从 “能用” 走向 “好用、易用、低成本规模化” 的关键一步,也推动底层集群、推理框架、调度策略全面向专业化场景适配。