DeepSeek也要建数据中心了，月薪 3 万，去内蒙草原给 DeepSeek 守机房，你愿意吗？DeepSeek 内蒙

AI Infra 周刊｜第 3 期

2026.04.11–04.17

算力·芯片·集群·底软·网络·训练推理·数据中心·工程效率

一、全球巨头算力军备竞赛

1. 04.15 | Meta 与博通延长 AI 算力战略合作至 2029 年，共建数吉瓦级智算集群

据博通官方公告，Meta 与博通正式将 AI 算力战略合作延长至 2029 年，双方将联合打造数吉瓦级超大规模 AI 算力集群，围绕 Meta 自研 MTIA 推理芯片开展深度定制，覆盖芯片适配、系统集成、高速互联、集群调度等全栈环节。本次合作将进一步强化 Meta 自研芯片生态，降低对通用 GPU 的依赖，为旗下 Llama 系列大模型、AI 智能体、元宇宙相关业务提供长期、稳定、低成本的算力支撑。

来源：Broadcom 官方公告（2026.04.14）

🟦 Infra 小科普

自研 AI 芯片+定制化集群的深度绑定，是头部科技公司摆脱英伟达依赖、构建自主算力体系的核心路径，也为国产算力生态提供了可参考的合作范式。

2. 04.16 | 特斯拉 AI5 芯片完成流片，算力较上代提升约 40 倍，对标英伟达 Blackwell 架构

据 Electrek、TechNode 报道，特斯拉新一代自研 AI 训练芯片 AI5 已成功流片，算力规模较上代产品提升约 40 倍，单芯片算力与能效指标直接对标英伟达 Blackwell 架构。该芯片由台积电代工，采用先进工艺，计划 2027 年全面量产，未来将用于自动驾驶 FSD 训练、Optimus 人形机器人算法优化、Dojo 超算集群扩建等核心场景，进一步完善特斯拉“芯片—集群—算法”全栈自研体系。

来源：Electrek、TechNode（2026.04.16）

🟦 Infra 小科普

车厂自研 AI 芯片实现高端算力突破，标志着 AI 算力从通用 GPU 向场景化定制芯片的转型加速，也为垂直行业自研算力生态树立了标杆。

二、芯片与硬件基础设施

3. 04.15 | 深度求索（DeepSeek）内蒙古算力基地启用，支撑万亿参数 V4 模型训练

据网易新闻、行业信源报道，4月15日，深度求索（DeepSeek）正式宣布在内蒙古乌兰察布启用总投资超50亿元的专属智算基地，该基地定位为国内首个万亿参数大模型专属算力基地，分三期建设，一期配备1万机柜、2万张混合芯片，涵盖华为昇腾910C、寒武纪思元590、海光DCU及少量H800过渡芯片，总算力达10万P，最终将扩展至3万机柜、5万张芯片、30万P总算力。该基地的核心使命是专属支撑DeepSeek V4万亿参数MoE大模型的训练与推理，解决此前租赁算力存在的稳定性不足、成本偏高、供应链受限等问题。

来源：网易新闻、行业信源（2026.04.15）

🟦 Infra 小科普

大模型公司从“租算力”转向自建专属算力基地已成趋势：锁资源、控成本、练国产芯片、防断供，是AI公司掌握技术主权的核心布局。

三、网络和高速互联

4. 04.11 | Ciena 推出高带宽低延迟光网络解决方案，破解 GPU 集群传输瓶颈

据 Computer Weekly、OFC 2026 展会信息，光网络设备厂商 Ciena 发布面向超大规模 GPU 集群的新一代光网络解决方案，定位为 AI 算力集群背后的“高速路网”。该方案通过超高带宽、超低延迟光传输技术，优化多节点、多机柜之间的数据通信效率，解决大模型训练中参数同步、数据交换带来的网络拥堵问题，显著提升集群整体算力利用率，适配万卡级、十万卡级智算中心的高速互联需求。

来源：Computer Weekly、OFC 2026 官方报道（2026.04.11）

🟦 Infra 小科普

光网络是 AI 算力集群的“高速公路”，高带宽低延迟的光互联方案，是突破 AI 算力集群规模上限、提升算力利用率的核心基础设施。

四、底软（驱动、固件、CANN、RSM、调度底层）

5. 04.14 | Cloudflare 推出 Cloudflare Mesh，打造 Agent 时代安全私有网络

据 Cloudflare 官方新闻稿，Cloudflare 正式推出 Cloudflare Mesh 安全私有网络，面向 AI Agent 跨设备、跨区域协同场景设计。依托全球分布式节点与零信任（Zero Trust）安全架构，该产品可构建加密、低延迟、高可靠的网状私有网络，保障 AI 智能体在多终端、多地域之间的数据传输安全与隐私合规，解决企业级 Agent 规模化部署中的安全与延迟痛点。

来源：Cloudflare 官方新闻稿、IT 之家（2026.04.14）

🟦 Infra 小科普

Agent 时代对网络安全提出了更高要求，Zero Trust 架构的私有网络，是保障 AI 智能体数据安全、合规运行的核心技术支撑。

6. 04.11 | Vercel 推出 Open Agents 开源云端 Agent 开发模板，支持云端持续运行

据 Vercel 官方发布，Vercel 推出开源 AI Agent 开发模板 Open Agents，采用标准化三层架构设计，支持云端 7×24 小时持续运行，无需开发者保持本地设备在线。该模板可帮助前端与全栈开发者快速构建能自动写代码、执行测试、提交 PR、处理业务流程的 AI 编码 Agent，大幅降低云端 Agent 的开发门槛与工程成本。

来源：Vercel 官方平台（2026.04.11）

🟦 Infra 小科普

开源 AI Agent 开发模板，是 AI Coding 工具规模化落地的关键，通过标准化架构降低开发成本，推动 AI 辅助开发成为行业主流。

五、训练推理算法（训练框架、分布式、KV Cache、内存优化、调度）

7. 04.11 | G²RPO 推出，优化多模态多任务训练梯度失衡问题

据 arXiv 技术论文与顶会公开成果，G²RPO 算法正式发布，作为传统 GRPO 算法的改进版本，专门针对多模态、多任务训练场景优化。该算法通过跨任务梯度均衡机制，解决多任务训练中样本权重不均、不同任务梯度贡献失衡、训练不稳定、收敛慢等痛点，显著提升大模型在多任务混合训练下的稳定性与效率，为大规模多模态模型训练提供关键算法支撑。

来源：arXiv 技术论文、顶会公开稿（2026.04.11）

🟦 Infra 小科普

训练算法优化，是提升大模型训练效率、降低算力成本的核心方向，为多模态大模型规模化训练提供高效支撑。

六、数据中心、液冷 / 供电基建

8. 04.14 | 美国密苏里州60亿美元AI数据中心项目遭民众抗议，涉事议员被罢免

据 IT 之家援引 Tom's Hardware、Politico 报道，美国密苏里州费斯图斯小镇一项总投资 60 亿美元的 AI 数据中心项目引发强烈社区抗议。当地市议会在未充分公示、未听取居民意见的情况下强行通过项目审批，引发民众不满，选民通过投票罢免了半数涉事市议员。居民主要担忧项目过度消耗当地水电资源、破坏生活环境、推高本地生活成本，这一事件也显示全球范围内 AI 基建扩张与社区民生之间的矛盾持续升温。

来源：IT 之家、Tom's Hardware、Politico（2026.04.14）

🟦 Infra 小科普

AI 数据中心的社区抵制事件，反映了 AI 基建扩张与地方民生的矛盾，推动行业更加关注 AI 算力的可持续发展与社区利益平衡。

七、AI Infra 重磅八卦

**9. 04.14 | 月薪 3 万，去内蒙草原给 DeepSeek 守机房，你愿意吗？

DeepSeek 内蒙古智算基地疯抢运维，开出月薪最高 3 万，包吃包住、驻场草原机房，主打一个 “远离城市喧嚣，专心守护万亿参数大模型”。岗位要求能扛住万卡集群熬夜排障，网友调侃：上班看草原，下班看机柜，拿着高薪还没地方花。

八、一个AI Infra 干货科普

智算中心算力调度系统：AI集群的“智能大脑”有多关键？

在超大规模智算中心里，数万甚至数十万张AI芯片能否发挥最大价值，核心不在于单芯片算力多强，而在于算力调度系统这个“智能大脑”——它是连接芯片硬件、业务需求与资源分配的核心枢纽，直接决定算力利用率和大模型训练/推理效率。

什么是智算中心算力调度系统？

简单说：

算力调度系统是一套覆盖“资源感知-任务拆解-节点分配-动态调度-故障容错”的全流程软件体系，向上承接大模型训练、推理等业务需求，向下管理GPU/昇腾/DCU等异构芯片、服务器、网络、存储等硬件资源，是智算中心的“操作系统”。

主流架构分为三层：资源层（硬件抽象与状态监控）、调度层（任务分发与资源匹配）、应用层（适配训练/推理场景的定制化策略）。

算力调度系统为什么是核心瓶颈？

算力利用率的“生死线” 无优化的调度系统下，智算中心算力利用率普遍低于40%——大量芯片因任务排队、资源碎片、节点负载不均处于闲置状态；优秀的调度系统可将利用率提升至70%以上，相当于同等硬件规模下算力输出翻倍，一个10万P算力中心每年可节省数十亿算力成本。
适配异构芯片的“翻译官” 当前智算中心普遍混合部署英伟达GPU、华为昇腾、寒武纪思元、海光DCU等异构芯片，不同芯片的架构、驱动、算力特性差异极大；调度系统需具备“异构感知”能力，为不同任务（如大模型训练用昇腾910C、推理用MTIA芯片）匹配最优芯片类型，避免“大材小用”或“小材大用”。
支撑分布式训练的“总指挥” 万亿参数大模型训练需拆分至数千张芯片并行计算，调度系统要精准控制数据分片、梯度同步、通信链路分配，一旦调度策略失误，会导致节点间数据传输延迟飙升，训练收敛速度下降50%以上；同时还需支持动态扩缩容，应对训练过程中芯片故障、资源波动等问题。
成本与能耗的“调节器” 调度系统可结合峰谷电价、芯片能耗特性动态调整任务执行时段：将非紧急的推理任务调度至电价低谷期，将高功耗的训练任务分配至能效比最优的芯片节点，单智算中心每年可降低10%-20%的电费支出，同时契合绿色算力的能耗管控要求。

算力调度系统的行业现状？

目前头部科技企业均在自研调度系统：Meta针对MTIA芯片定制集群调度框架，特斯拉Dojo超算配套自研调度系统适配AI5芯片；国内阿里云、腾讯云、DeepSeek等企业也基于K8s、Slurm等开源框架深度定制，适配国产芯片的调度算法成为核心竞争力。

行业痛点集中在“异构芯片适配难”“大规模集群调度延迟高”“任务优先级与资源抢占冲突”，而国产调度系统正逐步突破海外框架限制，在昇腾芯片集群调度、万亿参数模型分布式训练调度等场景实现领先。