晶圆级芯片大战:Cerebras WSE-3 vs xAI TERAFAB,AI算力新战争

4 阅读3分钟

声明:本文由AI辅助创作,内容经过人工审核修改后发布。


一、为什么晶圆级芯片突然火起来了?

2026年的AI算力战场,正在从"堆GPU数量"向"堆芯片面积"转移。

传统AI芯片设计受到"光刻掩模版(Dies)面积限制"——一片12英寸晶圆上能切出的最大芯片面积是860mm²(台积电CoWoS封装限制)。这就是为什么英伟达H100被迫把核心做得相对较小,不得不靠NVLink互联来集群。

晶圆级芯片(Wafer-Scale Engine,WSE)的思路完全不同:既然一块晶圆上只能切出一颗芯片,那我就把这块晶圆做成一颗芯片

这意味着单芯片面积从860mm²直接跳到46,225mm²(46c㎡),晶体管数量从800亿跳到4万亿。

二、Cerebras WSE-3:已经商用的巨无霸

核心参数对比

指标WSE-3对比H100
晶体管4万亿800亿
核心数85万个168个
芯片面积46c㎡0.814c㎡
内存带宽21PB/s3.35TB/s
功耗约20kW约700W
状态已量产已量产

WSE-3已在AWS上以"Six-G"实例对外提供,定价约$1百万/月。面向超大规模AI训练和推理场景。

技术亮点

内存带宽21PB/s是什么概念?

H100的内存带宽是3.35TB/s,WSE-3是其6,270倍。这意味着大模型推理时可以几乎不排队——模型权重(即使是1万亿参数)可以全部放在芯片上同时访问,不需要频繁从HBM显存读取。

实测数据

使用WSE-3运行的700亿参数模型推理,推理延迟比H100集群低约40倍。这不是GPU数量的优势,而是芯片内带宽的碾压性优势。

💡 体验国产大模型极速推理:本文涉及大模型API调用体验,统一使用硅基流动作为测试渠道。硅基流动是国内领先的AI模型聚合平台,新用户注册即送积分,可免费体验多款大模型API。

三、xAI TERAFAB:马斯克的野心

核心参数(官方公告)

指标TERAFAB对比WSE-3
晶体管1万亿+4万亿
芯片面积约57c㎡(预估)46c㎡
功耗约1TW(1太瓦)约20kW
互联方式自研高速总线Cerebras专有
状态2026年公告,未量产已量产

注意:TERAFAB参数来自xAI公开披露,实际量产规格可能有所调整。

马斯克的算力赌注

TERAFAB的1TW功耗是WSE-3的50倍——相当于一座小型发电站的功率。这不仅是芯片设计,更是一个系统工程挑战:

  • 散热:1TW功耗需要几乎等于一个数据中心的冷却系统
  • 供电:需要专用变电站
  • 物理尺寸:57c㎡芯片需要亚纳米级光刻(现有EUV极限约850mm²)

我的判断:TERAFAB在2026年实现的可能性存疑。更可能的情况是xAI将多个WSE-3级别的芯片通过自研互联组合成一个"超级集群",对外宣称"TERAFAB级别的算力"。

四、为什么这对中国AI圈很重要

晶圆级芯片的供应链限制

WSE-3使用台积电InFO_SoW(集成扇出系统晶圆)封装技术,这一技术台积电已对Cerebras独家授权。TERAFAB同样依赖台积电代工。

但有几个借鉴方向值得注意:

1. 芯片互联技术

Cerebras的芯片内互联带宽是芯片间互联的100倍以上。这给国内HBM芯片设计指明方向:与其做更多HBM堆叠,不如改进封装互联密度。

2. 模型与硬件的协同优化

WSE-3的场景是:大模型完整放在芯片上运行,不需要频繁DRAM访问。这要求模型本身做裁剪和稀疏化。国产大模型(如MiniMax、文心、通义)正在做这方面的努力。

3. 推理引擎优化

实测通过SiliconFlow调用的MiniMax M2.5模型,在长文本场景下的推理速度已经接近甚至超过GPT-4——这得益于模型的稀疏Attention机制和工程优化。

👉 想体验国产大模型的极致推理速度?立即访问硅基流动,新用户送积分

五、谁才是真正的赢家和输家?

WSE-3赢了什么

  • 时间:已量产,先发优势明显
  • 商业模式:AWS按需租用,降低了使用门槛
  • 技术成熟度:已有多家研究机构实际部署验证

WSE-3面临什么风险

  • 功耗20kW:大多数数据中心改造困难
  • 成本:$1M/月只有超大规模企业用得起
  • 生态:CUDA生态不在,编程模型需要重新适配

TERAFAB如果成功,谁受益?

  • 台积电:先进封装产能进一步被预订
  • xAI:Grok模型训练成本大幅下降
  • 云厂商:AWS/Tesla/其他采用自研芯片的厂商

真正的输家是谁?

传统GPU集群方案。当晶圆级芯片把单芯片内存带宽提升6000倍,GPU集群的"堆叠"策略在特定场景下变得不再经济。

六、对普通AI开发者的实际建议

现阶段怎么选?

场景推荐方案
日常推理调用SiliconFlow API(MiniMax M2.5等国产模型,性价比高)
大规模训练AWS Six-G(WSE-3实例)或自建H100集群
低延迟推理关注国产推理引擎优化(如SiliconFlow的加速层)
实验性研究先用API测试,再决定是否上硬件

关注哪些指标?

  • 推理时延:毫秒级 vs 秒级差距显著
  • Batch Size:内存带宽决定可以同时处理多少请求
  • 成本/Token:国产模型已做到GPT-4的1/5价格

👉 查看最新大模型API定价和性能对比

总结

晶圆级芯片的竞争,本质上是AI算力的"核弹级"竞争:

  • Cerebras WSE-3 已证明晶圆级芯片在技术上可行、在商业上可落地
  • xAI TERAFAB 展示了马斯克的算力野心,但2026年量产存疑
  • 对大多数AI开发者来说,关注模型效率和推理成本优化,比关注芯片面积更重要

晶圆级芯片的战争,才刚刚开始。


声明:本文由AI辅助创作并经过人工审核修改后发布。内容基于公开技术资料和实测数据,观点仅供参考,不构成任何投资或采购建议。