AI Infra 周刊|第 3 期
2026.04.11–04.17
算力·芯片·集群·底软·网络·训练推理·数据中心·工程效率
一、全球巨头算力军备竞赛
1. 04.15 | Meta 与博通延长 AI 算力战略合作至 2029 年,共建数吉瓦级智算集群
据博通官方公告,Meta 与博通正式将 AI 算力战略合作延长至 2029 年,双方将联合打造数吉瓦级超大规模 AI 算力集群,围绕 Meta 自研 MTIA 推理芯片开展深度定制,覆盖芯片适配、系统集成、高速互联、集群调度等全栈环节。本次合作将进一步强化 Meta 自研芯片生态,降低对通用 GPU 的依赖,为旗下 Llama 系列大模型、AI 智能体、元宇宙相关业务提供长期、稳定、低成本的算力支撑。
来源:Broadcom 官方公告(2026.04.14)
🟦 Infra 小科普
自研 AI 芯片+定制化集群的深度绑定,是头部科技公司摆脱英伟达依赖、构建自主算力体系的核心路径,也为国产算力生态提供了可参考的合作范式。
2. 04.16 | 特斯拉 AI5 芯片完成流片,算力较上代提升约 40 倍,对标英伟达 Blackwell 架构
据 Electrek、TechNode 报道,特斯拉新一代自研 AI 训练芯片 AI5 已成功流片,算力规模较上代产品提升约 40 倍,单芯片算力与能效指标直接对标英伟达 Blackwell 架构。该芯片由台积电代工,采用先进工艺,计划 2027 年全面量产,未来将用于自动驾驶 FSD 训练、Optimus 人形机器人算法优化、Dojo 超算集群扩建等核心场景,进一步完善特斯拉“芯片—集群—算法”全栈自研体系。
来源:Electrek、TechNode(2026.04.16)
🟦 Infra 小科普
车厂自研 AI 芯片实现高端算力突破,标志着 AI 算力从通用 GPU 向场景化定制芯片的转型加速,也为垂直行业自研算力生态树立了标杆。
二、芯片与硬件基础设施
3. 04.15 | 深度求索(DeepSeek)内蒙古算力基地启用,支撑万亿参数 V4 模型训练
据网易新闻、行业信源报道,4月15日,深度求索(DeepSeek)正式宣布在内蒙古乌兰察布启用总投资超50亿元的专属智算基地,该基地定位为国内首个万亿参数大模型专属算力基地,分三期建设,一期配备1万机柜、2万张混合芯片,涵盖华为昇腾910C、寒武纪思元590、海光DCU及少量H800过渡芯片,总算力达10万P,最终将扩展至3万机柜、5万张芯片、30万P总算力。该基地的核心使命是专属支撑DeepSeek V4万亿参数MoE大模型的训练与推理,解决此前租赁算力存在的稳定性不足、成本偏高、供应链受限等问题。
来源:网易新闻、行业信源(2026.04.15)
🟦 Infra 小科普
大模型公司从“租算力”转向自建专属算力基地已成趋势:锁资源、控成本、练国产芯片、防断供,是AI公司掌握技术主权的核心布局。
三、网络和高速互联
4. 04.11 | Ciena 推出高带宽低延迟光网络解决方案,破解 GPU 集群传输瓶颈
据 Computer Weekly、OFC 2026 展会信息,光网络设备厂商 Ciena 发布面向超大规模 GPU 集群的新一代光网络解决方案,定位为 AI 算力集群背后的“高速路网”。该方案通过超高带宽、超低延迟光传输技术,优化多节点、多机柜之间的数据通信效率,解决大模型训练中参数同步、数据交换带来的网络拥堵问题,显著提升集群整体算力利用率,适配万卡级、十万卡级智算中心的高速互联需求。
来源:Computer Weekly、OFC 2026 官方报道(2026.04.11)
🟦 Infra 小科普
光网络是 AI 算力集群的“高速公路”,高带宽低延迟的光互联方案,是突破 AI 算力集群规模上限、提升算力利用率的核心基础设施。
四、底软(驱动、固件、CANN、RSM、调度底层)
5. 04.14 | Cloudflare 推出 Cloudflare Mesh,打造 Agent 时代安全私有网络
据 Cloudflare 官方新闻稿,Cloudflare 正式推出 Cloudflare Mesh 安全私有网络,面向 AI Agent 跨设备、跨区域协同场景设计。依托全球分布式节点与零信任(Zero Trust)安全架构,该产品可构建加密、低延迟、高可靠的网状私有网络,保障 AI 智能体在多终端、多地域之间的数据传输安全与隐私合规,解决企业级 Agent 规模化部署中的安全与延迟痛点。
来源:Cloudflare 官方新闻稿、IT 之家(2026.04.14)
🟦 Infra 小科普
Agent 时代对网络安全提出了更高要求,Zero Trust 架构的私有网络,是保障 AI 智能体数据安全、合规运行的核心技术支撑。
6. 04.11 | Vercel 推出 Open Agents 开源云端 Agent 开发模板,支持云端持续运行
据 Vercel 官方发布,Vercel 推出开源 AI Agent 开发模板 Open Agents,采用标准化三层架构设计,支持云端 7×24 小时持续运行,无需开发者保持本地设备在线。该模板可帮助前端与全栈开发者快速构建能自动写代码、执行测试、提交 PR、处理业务流程的 AI 编码 Agent,大幅降低云端 Agent 的开发门槛与工程成本。
来源:Vercel 官方平台(2026.04.11)
🟦 Infra 小科普
开源 AI Agent 开发模板,是 AI Coding 工具规模化落地的关键,通过标准化架构降低开发成本,推动 AI 辅助开发成为行业主流。
五、训练推理算法(训练框架、分布式、KV Cache、内存优化、调度)
7. 04.11 | G²RPO 推出,优化多模态多任务训练梯度失衡问题
据 arXiv 技术论文与顶会公开成果,G²RPO 算法正式发布,作为传统 GRPO 算法的改进版本,专门针对多模态、多任务训练场景优化。该算法通过跨任务梯度均衡机制,解决多任务训练中样本权重不均、不同任务梯度贡献失衡、训练不稳定、收敛慢等痛点,显著提升大模型在多任务混合训练下的稳定性与效率,为大规模多模态模型训练提供关键算法支撑。
来源:arXiv 技术论文、顶会公开稿(2026.04.11)
🟦 Infra 小科普
训练算法优化,是提升大模型训练效率、降低算力成本的核心方向,为多模态大模型规模化训练提供高效支撑。
六、数据中心、液冷 / 供电基建
8. 04.14 | 美国密苏里州60亿美元AI数据中心项目遭民众抗议,涉事议员被罢免
据 IT 之家援引 Tom's Hardware、Politico 报道,美国密苏里州费斯图斯小镇一项总投资 60 亿美元的 AI 数据中心项目引发强烈社区抗议。当地市议会在未充分公示、未听取居民意见的情况下强行通过项目审批,引发民众不满,选民通过投票罢免了半数涉事市议员。居民主要担忧项目过度消耗当地水电资源、破坏生活环境、推高本地生活成本,这一事件也显示全球范围内 AI 基建扩张与社区民生之间的矛盾持续升温。
来源:IT 之家、Tom's Hardware、Politico(2026.04.14)
🟦 Infra 小科普
AI 数据中心的社区抵制事件,反映了 AI 基建扩张与地方民生的矛盾,推动行业更加关注 AI 算力的可持续发展与社区利益平衡。
七、AI Infra 重磅八卦
**9. 04.14 | 月薪 3 万,去内蒙草原给 DeepSeek 守机房,你愿意吗?
DeepSeek 内蒙古智算基地疯抢运维,开出月薪最高 3 万,包吃包住、驻场草原机房,主打一个 “远离城市喧嚣,专心守护万亿参数大模型”。岗位要求能扛住万卡集群熬夜排障,网友调侃:上班看草原,下班看机柜,拿着高薪还没地方花。
八、一个AI Infra 干货科普
智算中心算力调度系统:AI集群的“智能大脑”有多关键?
在超大规模智算中心里,数万甚至数十万张AI芯片能否发挥最大价值,核心不在于单芯片算力多强,而在于算力调度系统这个“智能大脑”——它是连接芯片硬件、业务需求与资源分配的核心枢纽,直接决定算力利用率和大模型训练/推理效率。
- 什么是智算中心算力调度系统?
简单说:
算力调度系统是一套覆盖“资源感知-任务拆解-节点分配-动态调度-故障容错”的全流程软件体系,向上承接大模型训练、推理等业务需求,向下管理GPU/昇腾/DCU等异构芯片、服务器、网络、存储等硬件资源,是智算中心的“操作系统”。
主流架构分为三层:资源层(硬件抽象与状态监控)、调度层(任务分发与资源匹配)、应用层(适配训练/推理场景的定制化策略)。
- 算力调度系统为什么是核心瓶颈?
-
算力利用率的“生死线” 无优化的调度系统下,智算中心算力利用率普遍低于40%——大量芯片因任务排队、资源碎片、节点负载不均处于闲置状态;优秀的调度系统可将利用率提升至70%以上,相当于同等硬件规模下算力输出翻倍,一个10万P算力中心每年可节省数十亿算力成本。
-
适配异构芯片的“翻译官” 当前智算中心普遍混合部署英伟达GPU、华为昇腾、寒武纪思元、海光DCU等异构芯片,不同芯片的架构、驱动、算力特性差异极大;调度系统需具备“异构感知”能力,为不同任务(如大模型训练用昇腾910C、推理用MTIA芯片)匹配最优芯片类型,避免“大材小用”或“小材大用”。
-
支撑分布式训练的“总指挥” 万亿参数大模型训练需拆分至数千张芯片并行计算,调度系统要精准控制数据分片、梯度同步、通信链路分配,一旦调度策略失误,会导致节点间数据传输延迟飙升,训练收敛速度下降50%以上;同时还需支持动态扩缩容,应对训练过程中芯片故障、资源波动等问题。
-
成本与能耗的“调节器” 调度系统可结合峰谷电价、芯片能耗特性动态调整任务执行时段:将非紧急的推理任务调度至电价低谷期,将高功耗的训练任务分配至能效比最优的芯片节点,单智算中心每年可降低10%-20%的电费支出,同时契合绿色算力的能耗管控要求。
- 算力调度系统的行业现状?
目前头部科技企业均在自研调度系统:Meta针对MTIA芯片定制集群调度框架,特斯拉Dojo超算配套自研调度系统适配AI5芯片;国内阿里云、腾讯云、DeepSeek等企业也基于K8s、Slurm等开源框架深度定制,适配国产芯片的调度算法成为核心竞争力。
行业痛点集中在“异构芯片适配难”“大规模集群调度延迟高”“任务优先级与资源抢占冲突”,而国产调度系统正逐步突破海外框架限制,在昇腾芯片集群调度、万亿参数模型分布式训练调度等场景实现领先。