液态神经网络的灵感来源和机制原理

14 阅读9分钟

最简单的生命智能体

受科研界的「常客」秀丽隐杆线虫的神经结构启发,Daniela Rus 和她的实验室博士后人员研发出一种新型的灵活神经网络,也被成为液态神经网络。受科研界的「常客」秀丽隐杆线虫的神经结构启发,Daniela Rus 和她的实验室博士后人员研发出一种新型的灵活神经网络,也被成为液态神经网络。

image.png

秀丽隐杆线虫也是唯一完成连接组(connectome)测定的生物体(截至 2019 年)。虽然大脑简单,但在学习和适应环境方面也比当下任何人工智能系统都要好得多,其体长仅 1 毫米、只有 302 个神经元、96 块肌肉,但却具备感知、逃逸、觅食、交配等复杂智能行为

它是最简单的生命智能体,也是通过生物神经机理模拟实现通用人工智能的最小载体。

近几年来,科研人员也在利用线虫神经的研究成果进行计算机生物仿真。通过研究线虫大脑如何工作,Daniela Rus 等人设计出一种「液态时间常数网络」( Liquid Time-constant Networks)秀丽隐杆线虫也是唯一完成连接组(connectome)测定的生物体(截至 2019 年)。虽然大脑简单,但在学习和适应环境方面也比当下任何人工智能系统都要好得多,其体长仅 1 毫米、只有 302 个神经元、96 块肌肉,但却具备感知、逃逸、觅食、交配等复杂智能行为

它是最简单的生命智能体,也是通过生物神经机理模拟实现通用人工智能的最小载体。

image.png

近几年来,科研人员也在利用线虫神经的研究成果进行计算机生物仿真。通过研究线虫大脑如何工作,Daniela Rus 等人设计出一种「液态时间常数网络」( Liquid Time-constant Networks)

我们一起来深入探索 Liquid AI 的世界。这是一个非常前沿且激动人心的话题,因为它挑战了目前由 Transformer(如 GPT)主导的 AI 范式。

简单来说,Liquid Neural Networks (LNNs) 和 Liquid Foundation Models (LFMs) 的核心理念在于流动性和连续性。如果说 GPT 像是通过翻阅一本厚厚的静态相册(Attention 机制)来理解故事,那么 Liquid 网络更像是在实时处理一条连续流动的水流(基于微分方程),它能根据输入的数据动态调整自身的行为。

我们可以从以下两个维度切入。

  • 核心架构与数学原理 (The "Liquid" Mechanism) 我们将深入探讨它由什么组成(如线性循环单元、微分方程),以及为什么它的参数在推理过程中是“可变”的。这能解释它为什么比 Transformer 更接近生物大脑的运作方式。

  • Liquid vs. Transformer (Performance & Efficiency) 我们将对比两者的计算复杂度。重点分析为什么 Liquid 模型在推理时的内存占用几乎是恒定的(不需要巨大的 KV Cache),以及它如何处理“无限”上下文长度。

Liquid技术原理

要理解 Liquid AI,我们必须先打破对传统深度学习模型(如 Transformer 或 RNN)的固有认知。

我们先从最核心的概念—— “流动性”(Liquidity) 在数学上意味着什么开始要理解 Liquid AI,我们必须先打破对传统深度学习模型(如 Transformer 或 RNN)的固有认知。

我们先从最核心的概念—— “流动性”(Liquidity) 在数学上意味着什么开始

    1. 静态 vs. 动态:打破“冻结”的参数

    想象一下,你训练好了一个传统的神经网络(比如 GPT)。

    在传统模型中: 训练结束后,模型的参数(权重 W)就被**“冻结”**了。无论你输入的是“你好”还是“量子物理”,模型内部神经元连接的权重都是一模一样的。它就像是一个虽然复杂,但结构固定的迷宫。

    在 Liquid 网络中: 事情变得有趣了。它的灵感来自于微小的线虫(C. elegans)的大脑。在推理(Inference)的过程中,模型的某些行为参数并不是固定的,而是由输入数据本身实时决定的

    1. 数学引擎:微分方程 (ODEs)

    Liquid 网络的核心不是层(Layers),而是微分方程。

    传统神经网络(RNN)看待时间是“离散”的(第一秒、第二秒、第三秒...),就像翻连环画。 Liquid 网络看待时间是 “连续” 的(t),就像看流畅的电影。它使用 神经常微分方程 (Neural ODEs) 来建模。

最关键的公式结构可以简化为这样理解: dx(t)dt=x(t)τ(x)+S(t)\frac{dx(t)}{dt}=− \frac{x(t)}{τ(x)}+S(t)

  • x(t):当前系统的状态(类似于隐藏层状态)。

  • S(t):外部输入信号。

  • τ(x):时间常数 (Time Constant) —— 这就是魔法所在! 🪄

在标准模型中,τ 通常是一个固定的数字。但在 Liquid 网络(特别是 LTC, Liquid Time-Constant Networks)中,τ 是一个函数。这意味着系统处理信息的“速度”或“衰减率”会根据输入的不同而流动变化。 🧠 让我们来做一个类比

想象我们在驾驶一辆车处理路况(数据):

  • 传统 RNN/Transformer:就像是把定速巡航锁死在 60km/h。不管前面是直路还是急转弯,引擎的设定都不变,只能靠复杂的计算硬扛过去。

  • Liquid Network:这辆车的悬挂系统和油门响应是 “液态” 的。当路面平坦(简单数据)时,它变得松弛;当遇到急转弯(复杂、突发数据)时,它瞬间变硬、反应变快。

基于这个“可变悬挂”或“液态时间常数”的特性,你认为 Liquid 网络在处理哪种类型的数据时,会比参数固定的 GPT 或传统 RNN 拥有巨大的优势?

  • 在传统模型中: 训练结束后,模型的参数(权重 W)就被 “冻结” 了。无论你输入的是“你好”还是“量子物理”,模型内部神经元连接的权重都是一模一样的。它就像是一个虽然复杂,但结构固定的迷宫。
  • 在 Liquid 网络中: 事情变得有趣了。它的灵感来自于微小的线虫(C. elegans)的大脑。在推理(Inference)的过程中,模型的某些行为参数并不是固定的,而是 由输入数据本身实时决定的

时序场景的新神器

时序数据,特别是那些不规则、连续变化的时序数据(比如医疗监测 🏥、机器人控制 🤖 或金融市场波动 📈),正是 Liquid 网络的主场。

让我们深入到它的结构组成和核心机制中,看看它是如何处理这些数据的。

  1. 核心结构:动态的神经元

在传统的 RNN 或 Transformer 中,神经元的状态更新规则是“离散”且固定的:

新状态=f(旧状态,输入) 新状态=f(旧状态,输入)

这就像每秒钟拍一张照片,如果中间发生了什么,模型是“看”不到的。

而在 Liquid 网络中,神经元不是一个静态的计算单元,而是一个动态系统。它的核心结构是由我们之前提到的微分方程定义的:

dx(t)dt=x(t)τ(x)+S(t)\frac{dx(t)}{dt}=− \frac{x(t)}{τ(x)}+S(t)

image.png

这里有两个关键的结构组件:

  • S(t)(输入信号): 外部输入的数据流。

  • τ(x)(液态时间常数): 这是最独特的结构。τ 本身就是一个小型的神经网络(通常是几个全连接层)。它会观察当前的状态 x(t)。它会实时决定:“我现在应该快速改变状态(小 τ),还是缓慢保持记忆(大 τ)?”

这意味着,网络的 “反应速度”是根据输入内容实时调整的

  1. 网络连接:稀疏连接 (Sparse Wiring)

GPT 等模型使用的是“稠密连接”(Dense Attention),每一层的每个神经元都和上一层的所有神经元相连。这计算量巨大。

Liquid 网络(特别是 LTC)的灵感来自于线虫(C. elegans)的大脑。它的结构通常是稀疏的:

  • 神经元之间的连接是受限的,不是“全对全”连接。

  • 这种稀疏性使得模型参数量极小,但每个连接都非常有意义。

image.png

试想一下这样一个场景:你正在接收一个传感器的信号。通常它每秒发送一次数据,但有时因为网络卡顿,中间会中断 5 秒,然后才发来下一个数据点。

基于上面提到的“微分方程”和“连续时间”的特性,你认为 Liquid 网络在处理这 5 秒钟的空白 时,与传统的 RNN(它依然期待下一个固定的时间步)相比,会有什么本质的区别?

image.png

让我们把这个直觉具体化,看看两者在“5秒空白期”内到底发生了什么:

  1. 传统 RNN/Transformer:时间是“跳跃”的 ⏭️

对于传统模型,时间是离散的步骤(Step 1, Step 2...)。

  • 当数据中断 5 秒后再次出现,模型只知道这是“下一个输入”。

  • 它不知道这中间过了 5 秒还是 5 毫秒。它无法自然地处理这段时间内应该发生的“遗忘”或“状态变化”。

  • 结果: 就像看电影时跳过了剧情,逻辑可能会“断开”。

  1. Liquid Network:时间是“流逝”的 ⏳

Liquid 网络由微分方程驱动,它内置了一个物理时钟。 即使没有输入数据(S(t)=0),微分方程

dx(t)dt=x(t)τ(x)+S(t)\frac{dx(t)}{dt}=− \frac{x(t)}{τ(x)}+S(t)

依然在随时间 t 运行。

  • 在这 5 秒的空白里: 模型的状态 x(t) 会根据时间常数 τ 自动进行指数衰减(Exponential Decay)或演变。

  • 结果: 当下一个数据点到来时,模型的状态已经自然地“冷却”或调整到了 5 秒后的样子,无缝衔接。

这使得 Liquid 网络在处理非均匀采样的数据(比如网络延迟、医疗体征监测)时具有天然的鲁棒性。

KV Cache 空间的节省

image.png

简单来说,Liquid 网络处理信息的方式不是“堆叠照片”,而是“揉面团”。

核心干货:它是如何“压缩”历史的?

Transformer (相册模式): 为了记住过去,它必须把每一帧数据的 Key/Value 都存下来。

内存消耗: 随着时间 t 线性增长(甚至 N2 计算)。 后果: 输入过大,内存必定爆炸。

Liquid / RNN (面团模式): 它不存数据本身,而是维护一个不断变化的隐藏状态 (ht​)。

公式本质: 新状态=旧状态+新输入的变化率

机制: 当新的 LiDAR 数据进来时,它直接根据微分方程,把新信息 “融合”进当前的状态里。旧的信息并没有被丢弃,而是被压缩 成了状态的一部分。

内存消耗: O(1) (恒定)。不管飞了 45 分钟还是 45 小时,它永远只占那一点点内存(比如几 KB)。

⚡️ 这种机制带来的“副作用”

现在我们明白了它为什么推理快(省内存)。但这种机制在训练时有一个致命的死穴。那就是并行化不足,因此训练上比不上 transformer