这两年聊芯片,很少再有人单纯比拼“多少纳米”了。后摩尔时代,制程红利见顶,架构成了突围的主战场。从英伟达豪掷200亿美元买下Groq,到北大清华的存算芯片接连登上Nature,信号已经很明确:计算架构的范式转移,正在从学术论文走向产业落地。
下面梳理一下2025年底至今,几个值得关注的技术方向和最新进展。
1. 数据流架构:沉寂四十年,一朝被巨头抢筹
今年开年最炸的消息,莫过于英伟达200亿美元收购Groq的核心资产,英特尔16亿美元拿下SambaNova。两家巨头抢的其实是一样东西:数据流架构 。
传统CPU/GPU是“控制流”——指令排队,数据搬运,大部分能量耗在“等”上。数据流不一样:数据就绪即执行,没有程序计数器,没有指令调度开销。Groq的LPU在AI推理任务里能做到GPU约10倍的性能,不是靠堆算力,是把冯·诺依曼瓶颈绕过去了 。
国内在这条赛道上其实起步不晚。中科睿芯的范东睿团队师从数据流奠基人高光荣,已有多款芯片落地安防、自动驾驶领域。中科院计算所、清华、华科也都有长期积累。陈文光教授有个判断很直接:数据流架构正在给后发企业提供改写格局的机会窗口 。
| 公司/团队 | 架构/产品 | 进展 | 应用场景 |
|---|---|---|---|
| Groq | LPU(语言处理单元) | 被英伟达200亿美元收购 | AI推理,低延迟场景 |
| SambaNova | RDU(数据流芯片) | 被英特尔16亿美元收购 | 多语言模型加速 |
| 中科睿芯 | Godson-T/SPU/DPU | 已量产商用 | 安防、自动驾驶 |
| AMD | XDNA架构 | 集成于Ryzen AI处理器 | 笔记本边缘AI |
2. 存内计算:从刚性到柔性,从数字到模拟
存内计算不是新概念,但2026年初的两项成果把这个赛道的天花板抬高了一大截。
柔性存算芯片FLEXI 登上了Nature。这是清华、北大与维信诺合作的成果,直接用CMOS低温多晶硅工艺在柔性基底上造存算一体芯片。4万次弯折不坏,心律失常检测准确率99.2%,人体活动分类97.4% 。
更关键的是它的产业意义:面板厂也能做高性能计算芯片了。维信诺用自己的LTPS工艺打通了这条路线,柔性智能硬件从“概念”到“能跑AI模型”之间,突然有了桥。
另一条路线是模拟计算。北大孙仲团队做的非负矩阵分解求解器,用RRAM阻变存储器,在Netflix规模数据集上比先进数字芯片速度快12倍、能效高228倍 。模拟计算长期被诟病“精度不够、场景受限”,这篇《自然·通讯》至少证明:在推荐系统、图像压缩这类容忍度高的场景,模拟路线的性价比碾压数字。
| 技术方向 | 团队/单位 | 核心突破 | 能效/性能提升 | 发表 |
|---|---|---|---|---|
| 柔性存算一体 | 清华+北大+维信诺 | 首款柔性存算芯片FLEXI,4万次弯折不坏 | 本地运行AI模型 | Nature |
| 模拟计算求解器 | 北大孙仲团队 | RRAM基非负矩阵分解 | 速度↑12倍,能效↑228倍 | Nature Comms |
3. 类脑计算与新型器件:忆阻器开始“成组出牌”
北大杨玉超团队今年1月在Nature Electronics连发两篇,值得单独拎出来说。
第一篇是单脉冲编码的人机界面。传统神经形态系统用频率编码,能耗高、延时大。他们用VO2忆阻器做单脉冲神经元,编码时间波动<1%,面积比已有方案更小,系统能效提升38倍、速度提升6.4倍 。
第二篇更硬核——Fatigue STDP学习规则。生物突触有“短时程抑制”特性,高频刺激下会自动过滤噪声。杨玉超团队用界面型易失性忆阻器+非易失性忆阻器做“混合动力学”耦合,直接在硬件里复现了这个机制。结果是在500kHz强噪声背景下,系统依然能稳定提取信号。这是类脑硬件从“跑得通”到“扛干扰”的关键一步 。
同团队的陶耀宇还做了多物理域融合计算架构,把易失性氧化钒与非易失性氧化钽/铪器件集成,支持傅里叶变换等多种计算方式,吞吐率比硅基芯片提升近4倍,能效提升97倍 。
这几项工作的共同点是:不再拿忆阻器“刷榜”单一指标,而是开始解决系统级的真实痛点——噪声、通用性、集成度。
| 技术方向 | 团队/单位 | 核心器件/架构 | 关键突破 | 能效/性能提升 |
|---|---|---|---|---|
| 单脉冲人机界面 | 北大杨玉超团队 | VO2忆阻器单脉冲神经元 | 编码时间波动<1% | 能效↑38倍,速度↑6.4倍 |
| Fatigue STDP | 北大杨玉超团队 | 易失+非易失忆阻器混合耦合 | 500kHz强噪声下稳定工作 | 突触面积↓259倍 |
| 多物理域融合 | 北大陶耀宇+杨玉超 | 氧化钒+氧化钽/铪集成 | 支持傅里叶变换 | 吞吐率↑4倍,能效↑97倍 |
4. 3D可重构架构:国产AI芯片的“垂直造楼”路线
当先进工艺受限,靠“堆面积”卷不过,就只能往Z轴要算力。
清微智能的3D可重构架构已经跑了几年,今年是关键兑现期。技术原理不复杂:把逻辑芯片和DRAM通过混合键合垂直堆叠,带宽提升10倍以上。清华尹首一团队在ISCA的论文显示,对比2D/2.5D方案,能效最高提升28倍,面积效率提升近11倍 。
清微自己的云端算力产品计划2026年推出,全面对标国际主流高端AI芯片。这家公司可重构芯片累计出货已超3000万颗,2025年算力卡订单超3万张——不是PPT,是真在千卡智算中心里跑过的 。
另外值得留意的是玻璃基板。江西沃格光电等厂商正在推动玻璃基3D封装,散热、集成度优于传统有机基板,是大规模Chiplet集成的潜在突破口 。
| 公司/团队 | 技术路线 | 进展/规划 | 关键指标 |
|---|---|---|---|
| 清微智能 | 3D可重构架构 | 2026年推云端算力产品 | 带宽↑10倍,出货超3000万颗 |
| 清华尹首一团队 | 混合键合3D DRAM存算一体 | ISCA论文 | 能效↑2.89-28倍,面积效率↑2.67-11倍 |
| 江西沃格光电 | 玻璃基3D封装 | 产业推广阶段 | 散热/集成度优于传统基板 |
5. 量子计算:硅光子路线开始“务实”
量子计算领域也有变化:从“拼量子比特数”转向“拼系统兼容性”。
2月11日,荷兰QuiX Quantum与台湾Artilux光程研创达成合作,目标很务实——把光量子计算机塞进数据中心。当前量子电脑依赖超低温冷却是商用化最大障碍,双方要用锗硅光子技术把关键探测元件集成到硅光子平台里,降低系统复杂度与能耗 。
arXiv上刚更新的综述也印证了这个趋势:集成光子量子计算正从硅基向铌酸锂平台迁移,后者在电光调谐、非线性转换上有天然优势 。离通用量子计算机可能还远,但专用光量子加速器,已经有人在铺路了。
| 公司/机构 | 技术方向 | 合作/进展 | 目标 |
|---|---|---|---|
| QuiX Quantum + Artilux | 硅光子量子计算 | 签署MOU,开发数据中心兼容系统 | 降低量子电脑冷卻需求 |
| 铌酸锂光子平台 | 集成光子量子计算 | arXiv综述 | 电光调谐、非线性转换优势 |
新型计算架构这波浪潮,和过去十年有个本质不同:不再是“实验室发文章→巨头买买买”的单向链条。数据流被英伟达、英特尔用几百亿美元认证;存内计算已经在柔性屏上跑通心电监测;忆阻器开始解决真实场景的噪声问题;3D可重构直接对标国际主流产品。
中国企业在这轮架构变革里,不是跟随者,是并跑者,甚至在某些细分赛道是定义者。
如果还想系统追踪哪些公司在这些赛道上布局、谁和谁正在合作、哪些架构已经流片,与非网的文章栏目和研究报告栏目一直在做持续跟踪。从数据流到存内计算,从3D可重构到光子量子,产业图谱里把这些脉络画得很清楚——对于工程师和产业决策者来说,看清“谁在往哪个方向走”,有时候比单纯看懂技术更重要。