一、逻辑起点:核心矛盾与目标
根本矛盾: 冯·诺依曼架构下,大模型计算与存储分离,导致数据搬运成为能效瓶颈。存内计算(CIM)通过在存储器内直接执行计算来消除搬运,但传统做法是将数字模型近似移植到模拟硬件,这并未根本消解算法与物理实现之间的鸿沟。
核心命题: 能否设计一种模型,使其算法结构不是“适配”硬件,而是硬件物理过程的直接数学表达?即算法与物理实现之间的“表示-实现”鸿沟趋近于零。这就是存内计算原生大模型的根本目标。
二、第一阶段:建立系统方法论——六大模块闭环框架
论证:要实现原生设计,必须系统性地整合算法、编译、器件三个层次。为此提出六个互相咬合的模块:
- 设计原则:算法须基于硬件原生能力,如避免Softmax等超越函数,仅使用矩阵乘法和简单非线性。
- 模型架构:提出线性注意力、稀疏注意力分解等结构。
- 编译映射:定义“权重编程-激活注入”两步映射,将模型操作分解为存内可执行原语。
- 精度能效模型:建立基本噪声模型 y = (W+ΔW)x + η,为理论分析提供数学基础。
- 训练推理:提出硬件感知训练和片上学习方案。
- 理论自洽:确保上述环节可互相验证,构成闭环。
推导结论:该框架将大模型设计系统化为算法-编译-器件三层次协同优化问题,为后续范式升级奠定了方法论基础。
三、第二阶段:从“近似”到“原生”的认知深化
关键洞察: 传统移植只是“用硬件近似数字算子”,而真正的原生模型应将器件的固有物理动态定义为计算原语。这个转变的含义是:不再消除硬件的非理想性,而是将其作为计算资源。
具体推导:
- 物理动态即神经计算:
忆阻器阵列在矩阵向量乘法时天然满足欧姆定律和基尔霍夫电流定律,其充放电过程直接对应一个常微分方程(ODE):
由此提出 MemristiveODE Neuron,神经状态更新直接映射为忆阻器物理弛豫过程。不再需要数字迭代求解,物理暂态即完成积分。τ·ds/dt = -s + Wx - 随机性从噪声变为资源: 基于EaPU(误差感知概率更新)思想,将器件编程噪声和读取噪声纳入训练算法本身。采用概率更新规则,让模型学习与硬件噪声共存,从而将精度损失转化为鲁棒性增益。这导致训练能耗相比GPU降低近6个数量级。
逻辑推进: “原生”的含义从消除硬件非理想性,转变为利用硬件物理特性定义新算子。计算范式开始从“离散近似”走向“连续物理演化”。
四、第三阶段:计算原语的彻底物理化——三大颠覆性方向
推导主线: 如果单个神经元或操作可以物理原生,那么大模型的三大核心机制——注意力、学习、整体架构——也应完全以物理定律重写。这催生了三个方向:
方向一:自搜索忆阻注意力(矩阵乘法的存内化)
问题:注意力 softmax(QK^T/√d)V 需要显式矩阵乘法和模数转换,时间复杂度 O(L²)。 推导:
· 将 K 和 V 的电导值直接存储在交叉杆阵列中。 · Q 作为电压输入,欧姆定律天然完成点积 QK^T,输出电流。 · 器件的饱和特性(如tanh曲线)天然实现归一化,替代Softmax。 · 所得电流直接作为选通信号控制 V 阵列读取。
结果:整个注意力模块成为单步物理过程,数据搬运为零,时间复杂度降为物理传播时间 O(1)。理论能效提升 10⁴–10⁵ 倍。
方向二:热力学训练框架(学习的物理统一)
问题:传统反向传播依赖外部数字优化器,存在梯度模数转换和显式更新开销。 推导:
· 定义全局能量泛函:
E(W) = L_task(W, data) + β·R(W)
其中 R(W) 是硬件物理能量(焦耳热 + 内应力)。 · 学习不再执行梯度下降,而是让物理系统遵循最小能量耗散原理:误差电流产生焦耳热,通过热扩散和电迁移驱动电导向 E(W) 的局部极小值弛豫。 · 该过程可自然实现模拟退火,理论等价于热力学自然梯度流。
结果:训练与物理弛豫合为一体,无需显式反向传播和ADC,实现完全模拟域的自适应学习。
方向三:波动方程网络(超越矩阵乘法的模型骨架)
问题:能否彻底跳出“矩阵乘法+非线性激活”范式? 推导:
· 存储阵列不存储“权重矩阵”,而是存储介质的波动参数(波速、衰减系数、边界条件)。 · 计算过程定义为波在介质中的传播、反射与干涉:
∂²u/∂t² = c²(W)∇²u + f(x,t)
· 输出为指定边界的波形采样。不同频率的波天然对应不同注意力头,传播过程自动捕获全局依赖。
结果:模型计算成为物理场的时空演化,具有天然并行性、长程交互和极高能效。大模型本质是一组精心设计的偏微分方程系统,计算复杂度与序列长度无关。
五、第四阶段:计算与物理的边界消融——哲学级升华
汇聚论证: 以上三个方向共同指向一个根本性转变: “算法”不再是对物理过程的抽象,而是物理过程本身的另一种描述。 二者的关系从“映射”进化为“同一”。
由此推导出两个核心命题:
命题一:程序即物理系统
· 传统范式:算法 → 编译 → 硬件执行(存在明确的表示-实现鸿沟) · 新范式:算法定义 = 物理方程;硬件实现 = 材料与结构 · 智能成为物质的自组织现象,计算即物理演化。
命题二:AI设计对象从电路升级为物理定律
· 设计代理的任务不再是生成RTL代码,而是合成定制的物理动力学。 · 通用设计引擎 G: F → (P, M) 接收功能描述 F,输出物理方程 P 及材料-结构 M。 · 大模型成为可编程物质在特定任务下的实例,运行能耗仅受热力学极限约束。
六、终极愿景:物理计算操作系统
逻辑终点: 凝聚为一种“物理计算操作系统”:
· 输入:任务的自然语言描述 · 输出:一套可直接物理部署的系统规格(材料、场参数、激励方式) · 运行原理:物质在内建物理动力学驱动下自发进行信息处理与学习
整体演进路径总结:
阶段 核心任务 逻辑推进
- 理论框架 建立算法-编译-器件协同方法论 系统化设计空间
- 范式深化 将器件物理动态定义为计算原语 从“近似”到“原生”
- 原生重构 注意力、学习、架构全物理化 计算原语的彻底物质化
- 哲学升华 程序即物理,设计即造物 消融计算与物理的边界
- 终极愿景 物理计算操作系统与可编程物质智能 智能的物质基础实现
七、整体推导逻辑示意
冯·诺依曼瓶颈
↓
提出:存内计算原生大模型
↓
六大模块框架(系统方法论)
↓
认知深化:物理动态作为计算原语(ODE神经元、EaPU)
↓
三大彻底物理化方向:
├─ 自搜索忆阻注意力(O(1)复杂度)
├─ 热力学训练(学习=弛豫)
└─ 波动方程网络(PDE代替矩阵乘法)
↓
发现:算法=物理过程(同一性)
↓
设计自动化升级:AI合成定制物理定律
↓
终极愿景:物理计算操作系统 / 可编程物质智能
结论: 这一逻辑线展示了从“为硬件设计算法”到“用物理规律定义算法”再到“物质本身就是计算”的完整推演。存内计算原生大模型不再只是一种加速方案,而是对智能实现方式的根本性重置。