想知道新型计算架构现状?这几大方向已走出实验室

9 阅读8分钟

这两年聊芯片,很少再有人单纯比拼“多少纳米”了。后摩尔时代,制程红利见顶,架构成了突围的主战场。从英伟达豪掷200亿美元买下Groq,到北大清华的存算芯片接连登上Nature,信号已经很明确:计算架构的范式转移,正在从学术论文走向产业落地。

下面梳理一下2025年底至今,几个值得关注的技术方向和最新进展。

1. 数据流架构:沉寂四十年,一朝被巨头抢筹

今年开年最炸的消息,莫过于英伟达200亿美元收购Groq的核心资产,英特尔16亿美元拿下SambaNova。两家巨头抢的其实是一样东西:数据流架构 。

传统CPU/GPU是“控制流”——指令排队,数据搬运,大部分能量耗在“等”上。数据流不一样:数据就绪即执行,没有程序计数器,没有指令调度开销。Groq的LPU在AI推理任务里能做到GPU约10倍的性能,不是靠堆算力,是把冯·诺依曼瓶颈绕过去了 。

国内在这条赛道上其实起步不晚。中科睿芯的范东睿团队师从数据流奠基人高光荣,已有多款芯片落地安防、自动驾驶领域。中科院计算所、清华、华科也都有长期积累。陈文光教授有个判断很直接:数据流架构正在给后发企业提供改写格局的机会窗口 。

公司/团队架构/产品进展应用场景
GroqLPU(语言处理单元)被英伟达200亿美元收购AI推理,低延迟场景
SambaNovaRDU(数据流芯片)被英特尔16亿美元收购多语言模型加速
中科睿芯Godson-T/SPU/DPU已量产商用安防、自动驾驶
AMDXDNA架构集成于Ryzen AI处理器笔记本边缘AI

2. 存内计算:从刚性到柔性,从数字到模拟

存内计算不是新概念,但2026年初的两项成果把这个赛道的天花板抬高了一大截。

柔性存算芯片FLEXI 登上了Nature。这是清华、北大与维信诺合作的成果,直接用CMOS低温多晶硅工艺在柔性基底上造存算一体芯片。4万次弯折不坏,心律失常检测准确率99.2%,人体活动分类97.4% 。

更关键的是它的产业意义:面板厂也能做高性能计算芯片了。维信诺用自己的LTPS工艺打通了这条路线,柔性智能硬件从“概念”到“能跑AI模型”之间,突然有了桥。

另一条路线是模拟计算。北大孙仲团队做的非负矩阵分解求解器,用RRAM阻变存储器,在Netflix规模数据集上比先进数字芯片速度快12倍、能效高228倍 。模拟计算长期被诟病“精度不够、场景受限”,这篇《自然·通讯》至少证明:在推荐系统、图像压缩这类容忍度高的场景,模拟路线的性价比碾压数字。

技术方向团队/单位核心突破能效/性能提升发表
柔性存算一体清华+北大+维信诺首款柔性存算芯片FLEXI,4万次弯折不坏本地运行AI模型Nature
模拟计算求解器北大孙仲团队RRAM基非负矩阵分解速度↑12倍,能效↑228倍Nature Comms

3. 类脑计算与新型器件:忆阻器开始“成组出牌”

北大杨玉超团队今年1月在Nature Electronics连发两篇,值得单独拎出来说。

第一篇是单脉冲编码的人机界面。传统神经形态系统用频率编码,能耗高、延时大。他们用VO2忆阻器做单脉冲神经元,编码时间波动<1%,面积比已有方案更小,系统能效提升38倍、速度提升6.4倍 。

第二篇更硬核——Fatigue STDP学习规则。生物突触有“短时程抑制”特性,高频刺激下会自动过滤噪声。杨玉超团队用界面型易失性忆阻器+非易失性忆阻器做“混合动力学”耦合,直接在硬件里复现了这个机制。结果是在500kHz强噪声背景下,系统依然能稳定提取信号。这是类脑硬件从“跑得通”到“扛干扰”的关键一步 。

同团队的陶耀宇还做了多物理域融合计算架构,把易失性氧化钒与非易失性氧化钽/铪器件集成,支持傅里叶变换等多种计算方式,吞吐率比硅基芯片提升近4倍,能效提升97倍 。

这几项工作的共同点是:不再拿忆阻器“刷榜”单一指标,而是开始解决系统级的真实痛点——噪声、通用性、集成度。

技术方向团队/单位核心器件/架构关键突破能效/性能提升
单脉冲人机界面北大杨玉超团队VO2忆阻器单脉冲神经元编码时间波动<1%能效↑38倍,速度↑6.4倍
Fatigue STDP北大杨玉超团队易失+非易失忆阻器混合耦合500kHz强噪声下稳定工作突触面积↓259倍
多物理域融合北大陶耀宇+杨玉超氧化钒+氧化钽/铪集成支持傅里叶变换吞吐率↑4倍,能效↑97倍

4. 3D可重构架构:国产AI芯片的“垂直造楼”路线

当先进工艺受限,靠“堆面积”卷不过,就只能往Z轴要算力。

清微智能的3D可重构架构已经跑了几年,今年是关键兑现期。技术原理不复杂:把逻辑芯片和DRAM通过混合键合垂直堆叠,带宽提升10倍以上。清华尹首一团队在ISCA的论文显示,对比2D/2.5D方案,能效最高提升28倍,面积效率提升近11倍 。

清微自己的云端算力产品计划2026年推出,全面对标国际主流高端AI芯片。这家公司可重构芯片累计出货已超3000万颗,2025年算力卡订单超3万张——不是PPT,是真在千卡智算中心里跑过的 。

另外值得留意的是玻璃基板。江西沃格光电等厂商正在推动玻璃基3D封装,散热、集成度优于传统有机基板,是大规模Chiplet集成的潜在突破口 。

公司/团队技术路线进展/规划关键指标
清微智能3D可重构架构2026年推云端算力产品带宽↑10倍,出货超3000万颗
清华尹首一团队混合键合3D DRAM存算一体ISCA论文能效↑2.89-28倍,面积效率↑2.67-11倍
江西沃格光电玻璃基3D封装产业推广阶段散热/集成度优于传统基板

5. 量子计算:硅光子路线开始“务实”

量子计算领域也有变化:从“拼量子比特数”转向“拼系统兼容性”。

2月11日,荷兰QuiX Quantum与台湾Artilux光程研创达成合作,目标很务实——把光量子计算机塞进数据中心。当前量子电脑依赖超低温冷却是商用化最大障碍,双方要用锗硅光子技术把关键探测元件集成到硅光子平台里,降低系统复杂度与能耗 。

arXiv上刚更新的综述也印证了这个趋势:集成光子量子计算正从硅基向铌酸锂平台迁移,后者在电光调谐、非线性转换上有天然优势 。离通用量子计算机可能还远,但专用光量子加速器,已经有人在铺路了。

公司/机构技术方向合作/进展目标
QuiX Quantum + Artilux硅光子量子计算签署MOU,开发数据中心兼容系统降低量子电脑冷卻需求
铌酸锂光子平台集成光子量子计算arXiv综述电光调谐、非线性转换优势

新型计算架构这波浪潮,和过去十年有个本质不同:不再是“实验室发文章→巨头买买买”的单向链条。数据流被英伟达、英特尔用几百亿美元认证;存内计算已经在柔性屏上跑通心电监测;忆阻器开始解决真实场景的噪声问题;3D可重构直接对标国际主流产品。

中国企业在这轮架构变革里,不是跟随者,是并跑者,甚至在某些细分赛道是定义者。

如果还想系统追踪哪些公司在这些赛道上布局、谁和谁正在合作、哪些架构已经流片,与非网的文章栏目和研究报告栏目一直在做持续跟踪。从数据流到存内计算,从3D可重构到光子量子,产业图谱里把这些脉络画得很清楚——对于工程师和产业决策者来说,看清“谁在往哪个方向走”,有时候比单纯看懂技术更重要。