放弃通用计算?这家硅谷初创把 Llama 3 焊死在晶体管里,推理速度吊打 GPU 10倍!

3 阅读3分钟

这绝对是近期最硬核、也最反直觉的 AI 硬件新闻。

在这个满世界都在拿 GPU 算力说事儿,拼命追求大模型通用性和灵活性的时代,多伦多一家成立不到三年的初创公司 Taalas 丢出了一颗深水炸弹:他们选择放弃一切灵活性,把 AI 模型直接硬编码进了芯片物理层。

突破“内存墙”的极端解法 搞底层架构的同学都知道,现在的 AI 计算碰到了一个硬边界——内存带宽瓶颈(Memory Wall)。模型越来越庞大,要把几百亿参数在显存和计算单元之间来回搬运,耗费的时间和能耗,早就远超矩阵乘法计算本身了。

Taalas 的破局思路简单粗暴到了极点:既然每次算的东西结构都一样,凭什么还要搬来搬去?直接把权重存在晶体管里不行吗?

他们推出的 HC1 芯片交出了答卷:

  • 0 显存设计:没有 HBM,砍掉复杂的缓存层级。模型的每一个权重直接对应芯片上的特定晶体管,矩阵乘法通过电路的物理连接瞬间完成。
  • 光速推理:运行 Llama 3.1 8B,速度飙到 17000 tokens/秒!作为对比,目前顶配 GPU 的极限大概在 2000 左右,这是足足一个数量级的碾压。
  • 能效怪物:传统 GPU 跑推理动辄上液冷、几十千瓦功耗。HC1 十张卡加起来仅需 2.5 千瓦,纯风冷压制,能效宣称是 GPU 的十倍,制造成本更是降到了传统方案的 1/10。

极致的性能,极致的代价 这种设计就像是把现场演奏变成了黑胶唱片——播放极快,但内容彻底锁死。 这块芯片出厂的那一刻,它这辈子就只能跑 Llama 3.1 8B。不能微调,不能升级。Meta 明年发 Llama 4?对不起,这块芯片原地变成电子垃圾。

为了对冲这个风险,Taalas 联合台积电搞了一套敏捷流片方案。改两层金属掩膜就能换模型,硬是把定制芯片的周期从一年缩短到了两个月。

明星团队的架构之争 这套疯狂方案背后的推手绝非等闲之辈。CEO Ljubisa Bajic 是 Tenstorrent 创始人,COO 和 CTO 也都是前 AMD、Nvidia 的资深架构师巨佬。有意思的是,2022年 Jim Keller 接管 Tenstorrent 后,Ljubisa 选择了离开。Keller 执着于通用的、软件友好的平台,而 Ljubisa 则带着 2.19 亿美元融资走向了彻头彻尾的专用化(ASIC 路线的极致)。

在垂直场景(如语音助手、高频数据清洗)下,这种超低延迟、超低成本的方案极具诱惑力。但面对日新月异的模型迭代,市场真的会为了效率牺牲全部的灵活性吗?

想体验 17000 tokens/秒的“光速”推理?可以去他们的 demo 站感受一下没有延迟的震撼:https://chatjimmy.ai