DeepSeek V4 预览版发布，原生适配国产算力，谷歌发布第八代 TPU 8t/8i，正面硬刚英伟达？DeepSee

AI Infra 周刊｜第 4 期

2026.04.18–04.24

算力·芯片·集群·底软·网络·训练推理·数据中心·工程效率·框架·模型架构

1. 04.24｜DeepSeek‑V4 预览版发布，原生适配国产算力，Infra 级长文本优化落地

DeepSeek‑V4 预览版正式上线，推出 Pro/Flash 双版本，全系标配1M 上下文，采用MoE 架构 + DSA 稀疏注意力 + Token 压缩，显著降低显存与算力开销；模型实现昇腾、寒武纪等国产算力平台 Day‑0 全栈适配，原生支持华为 CANN 框架，完成从 CUDA 生态到国产底软的全面迁移，可在国产芯片上实现高效训练与规模化推理，助力 “模型–芯片–框架” 国产化闭环跑通。

🟦 AI Infra 干货科普

DeepSeek V4 完全适配国产算力，是在万亿参数 MoE 架构与百万 Token 超长上下文的高门槛下，一次难度极高但战略意义重大的全栈迁移：其难度集中在彻底脱离 CUDA 生态、重写数百核心算子并完成跨框架精度对齐、突破国产芯片在分布式互联与显存调度上的硬件瓶颈，需重构数千万行代码、攻克集群通信延迟与稳定性难题；而其意义则在于实现 “芯片 - 框架 - 模型” 全链路自主可控，打破海外算力垄断与断供风险，验证国产算力可承载全球顶级大模型的能力，为中国 AI 产业树立软硬件协同标杆，推动国产算力生态从 “可用” 向 “好用” 跨越，并加速形成独立的技术标准体系，夯实新质生产力的算力底座。

2. 04.22 | 谷歌 Cloud Next '26 发布第八代 TPU 8t/8i，训练推理芯片首次拆分

在 2026 Google Cloud Next 大会上，谷歌正式发布第八代 TPU 产品矩阵，首次将训练与推理场景拆分为两款独立芯片：TPU 8t 专注大规模分布式训练，单集群可扩展至 9600 芯片，峰值算力达到 121 EFLOPS，并配备 2PB 统一共享内存；TPU 8i 则面向高并发推理场景优化。这一架构拆分，标志云厂商正式从通用算力走向训练/推理专业化细分时代。

来源：Google Cloud Next '26（2026.04.22）

🟦 AI Infra 干货科普

训练/推理芯片架构拆分，是云厂商为应对大模型不同负载特征做出的专业化设计。训练侧重高算力、强互联、大内存带宽；推理侧重高并发、低时延、性价比，拆分后能大幅提升硬件利用率、降低整体算力成本。

3. 04.21–04.22 | Meta 投资10亿美元新建俄克拉荷马AI数据中心，PUE低至1.1

Meta 官方宣布启动超大规模 AI 专用数据中心建设，总投资额超 10 亿美元，重点服务下一代大模型训练与推理业务。该数据中心采用多项节能技术，设计 PUE 低至约 1.1，在高密度算力集群下仍保持极高能效，是全球科技巨头算力基建持续加码的重要信号。

来源：Meta 官方公告（2026.04.21）

🟦 AI Infra 干货科普

PUE（Power Usage Effectiveness）是数据中心能效核心指标，计算公式为数据中心总能耗 / IT 设备能耗。数值越接近 1 能效越高，AI 集群功耗巨大，PUE 每降低 0.1 都能带来巨额电费节省与碳排放优化。

4. 04.23 | 微软 180 亿美元加码澳洲 AI 基建，南半球算力枢纽成型

微软宣布投资180 亿美元（约 250 亿澳元）建设澳大利亚 AI 算力与网络安全集群，面向大模型训练、推理与云服务，强化亚太与南半球算力布局，与谷歌、AWS 抢滩区域算力主权。

来源：微软官方公告（2026.04.23）

🟦 AI Infra 干货科普

区域算力枢纽是云厂商在全球关键地理区域布局的超大规模 AI 算力中心集群，核心价值在于：

低时延：就近服务亚太、大洋洲企业与政府业务，训练 / 推理延迟显著降低；
算力主权：满足各国数据本地化、算力自主可控的监管要求，规避跨境数据风险；
韧性与竞争：分散单一区域算力风险，抢占新兴市场，形成对 AWS、谷歌的区域压制；
战略支点：作为全球算力网络的重要节点，支撑跨国大模型训练、多区域容灾与业务扩张。

5. 04.19 | 谷歌与 Marvell 合作研发内存处理单元（MPU），直击推理“内存墙”

据行业消息，谷歌正与芯片厂商 Marvell 联合研发面向大模型推理的内存处理单元（MPU），将计算逻辑下沉至内存层，直接缓解大模型推理中核心的“内存墙”问题，提升长上下文、高并发场景下的带宽利用效率，代表下一代 AI 硬件架构的重要探索方向。

来源：行业消息（2026.04.19）

🟦 AI Infra 干货科普

内存墙指算力增长速度远超内存带宽增长，导致芯片大量时间等待数据。MPU（内存处理单元）通过近内存计算架构，减少数据搬运开销，是当前破解大模型推理内存瓶颈的关键硬件路线。

6. 04.23 | FlashAttention 4 beta10 发布，MLA稀疏Attention性能显著提升

作为大模型底层核心加速算子，FlashAttention 4 推出重要更新，针对 MLA 稀疏注意力实现深度优化，在高端显卡上算力利用率大幅提升，推理速度显著快于传统方案，成为长文本模型推理的底层标配技术。

来源：FlashAttention GitHub（2026.04.23）

🟦 AI Infra 干货科普

FlashAttention 是 IO 感知的注意力算子优化技术，通过分块计算减少显存读写，大幅降低显存占用并提升计算速度，现已成为 vLLM、SGLang 等主流推理框架的底层加速基础。

7. 04.21 | SGLang 曝高危漏洞 CVE-2026-5760，可致远程代码执行

主流推理框架 SGLang 被披露高危安全漏洞，攻击者可通过构造恶意输入实现远程代码执行，CVSS 9.8 高危。官方已给出临时修复方案，对生产环境部署有重要警示意义。

来源：SGLang GitHub 安全公告（2026.04.21）

🟦 AI Infra 干货科普

大模型推理框架的模板注入漏洞，常出现在模型加载、输入解析环节。生产环境需开启沙箱隔离、输入校验、最小权限运行，避免加载未知来源模型文件，防止远程代码执行风险。

8. 04.24｜OpenAI 发布 GPT-5.5 + Workspace Agents，重塑企业研发工作流

GPT-5.5 定位为任务执行引擎，在长链路、多步骤、自主迭代工程任务上大幅领先；同步推出Workspace Agents，支持团队共享、流程可视化搭建、工具自动编排，把需求→代码→测试→部署全流程智能化，显著提升软件工程交付速度与质量。

来源：OpenAI 官方新闻（2026.04.23）

🟦 AI Infra 干货科普

Workspace Agents 是面向企业级的 AI 工程化基础设施，核心价值在于把大模型能力从 “单次调用” 升级为 “流程化执行”。它提供统一调度、权限管控、上下文持久化、工具链打通与观测复盘能力，让 AI 不再是独立调用，而是深度嵌入研发、运营、数据分析等真实工作流，大幅降低多步骤任务的人工介入成本，是 AI 从模型层走向工程落地层的关键基础设施形态。

9. 04.23｜国内三巨头全面推进 Harness Engineering（约束工程），重构 AI 落地效率

阿里、字节、腾讯同步强化Harness Engineering体系建设，聚焦模型调度、上下文管控、工作流约束、工具链协同，通过精细化工程手段最大化释放模型价值，行业正式从模型竞赛转向工程化落地竞赛，核心目标是稳定、高效、低成本规模化服务。

来源：36 氪、中国企业家杂志、腾讯云 / 火山引擎公开分享（2026.04.22–04.23）

🟦 AI Infra 干货科普

Harness Engineering（约束工程）可理解为AI 智能体的 “操作系统 + 缰绳 + 调度系统”。若把大模型比作 “烈马”，Harness 就是驾驭它的全套系统，不优化模型本身，而是通过约束、流程、记忆、工具、权限与反馈回路，让模型在生产环境里可控、稳定、低成本、可规模化地跑业务流程，是当前 AI 从 “能用” 走向 “好用、规模化” 的核心工程范式

10. 04.21 | Qwen3.6-Max-Preview 发布，新增preserve_thinking优化超长KV链

通义实验室发布 Qwen3.6-Max-Preview 预览版，新增 preserve_thinking 机制以保留模型多轮思考过程、提升复杂任务表现，但同时带来更长的 KV Cache 链条与更高显存压力，需要 Infra 层面前缀缓存、分片调度、动态丢弃等策略配合才能高效部署。

来源：通义实验室官方发布（2026.04.21）

🟦 AI Infra 干货科普

preserve_thinking 会保留模型思维链中间结果，显著增加上下文长度与 KV Cache 占用。Infra 层面需通过前缀缓存、动态 KV 淘汰、分片调度等手段缓解显存压力，平衡模型效果与部署成本。

八、AI Infra 轻八卦

04.23｜特斯拉20亿美元匿名AI硬件收购，圈内炸锅：直指英伟达Rubin + 谷歌TPU

特斯拉在2026 Q1 10‑Q季报附注低调曝光一笔20亿美元匿名AI硬件收购，全股票支付、90%金额与落地里程碑强绑定，财报电话会完全不提，保密级别拉满。

时间点极度敏感：谷歌当天刚发布TPU 8t/8i，训练推理双芯片拆分，单集群算力达121 EFLOPS，正式对外大规模放量；另一边英伟达下一代Vera Rubin芯片被巨头疯抢，台积电CoWoS产能被英伟达锁定超60%，ABF基板与HBM全线紧缺，2027年前高端算力一卡难求已成定局。

当前全球AI算力需求年增超80%，但高端芯片产能增速仅60%，英伟达对OpenAI、微软优先供货、溢价+排他，特斯拉长期拿不到足额H100/H200配额，FSD、Optimus、xAI三重算力刚需被逼到必须绕开限购、锁死2027–2028产能。

特斯拉内部测算，全球当前AI芯片年产能仅能满足其未来需求的2%，Optimus量产即可能吃掉全球一年新增算力，自研AI5芯片虽已流片，但远水难解近渴。

叠加台积电2nm产能已排至2028年，外部采购完全卡脖子，马斯克直言“不自己掌控算力，就会被瓶颈卡死”。

业内一致解读：这笔收购不是买公司，是抢下一代算力船票。

标的大概率是手握Rubin优先供货权+TPU 8全栈优化能力的硬件方案商，团队多来自谷歌TPU与英伟达核心部门，一次性补齐双路线顶级算力，堪称算力军备赛的“暗箱抢核”名场面。

九、一个 AI Infra 干货科普

训练与推理芯片专业化拆分，是 AI 算力进入精细化时代的核心标志

过去 AI 芯片多采用通用架构，同时承担训练与推理任务，难以兼顾两种负载的核心需求。随着大模型规模化落地，云厂商开始将训练与推理芯片完全独立设计，代表产品如谷歌第八代 TPU 8t（训练专用）与 TPU 8i（推理专用）。

训练芯片：侧重高算力、强互联、大内存带宽，支持数千芯片集群扩展，满足超大参数量模型的分布式训练需求，通常搭配液冷、超大容量 HBM 与统一共享内存。
推理芯片：侧重高并发、低时延、性价比，优化在线服务场景的请求处理效率，降低长文本与高并发下的显存与算力消耗。

这种架构拆分可显著提升硬件利用率、降低算力成本、减少功耗浪费，是 AI Infra 从 “能用” 走向 “好用、易用、低成本规模化” 的关键一步，也推动底层集群、推理框架、调度策略全面向专业化场景适配。