人工智能需要重新向大脑取经才能走向通用人工智能,而在众多功能迥异的脑区里, 一个叫海马体的区域格外引人关注。海马一直是Deepmind脑启发AI工作的战略要地 ,因为海马是关于生物体情景记忆以及导航的重要枢纽,这两种功能对生物智能的重要性不容置疑, 你想的到的和想不到的都和海马直接相关。
一, 什么是海马
海马体即途中那条蜿蜒如回(形容海马)的部分,在大脑里处在一个非常特殊的部位,从位置上看它是一个枢纽性的节点,和所有其它脑区均有连接, 从形状上它让人想到一个电影胶带,从功能上看它承载了空间表示和情景记忆。 从进化角度, 它是脊椎动物里进化比较保守的脑区, 因为记忆显然是智能最核心的组成部分之一。 模仿这部分脑区来做AI,也就显得很有必要。



二 ,海马体承载的核心功能: 情景记忆与认知地图
1, 认知地图 :
无论是回巢还是觅食动物都需要能够认路, 而对于这种至关重要的能力的起源, 一直以来存在众多争议。这一类任务被称为导航,尽管大多数动物需要这种能力。实验发现小鼠很容易在非常复杂的迷宫里找到食物,关于这个现象基本的假设解释, 一种是小鼠没有空间的概念,但是它可以记住一系列的动作 。这就好比一个很长的条件反射,比如左左右右左左右。 这就好比在现实生活中, 当你完成一个动作系列到达了星巴克, 你再执行另一个动作序列到达肯德基。
而另一个假设是小鼠有关于空间的概念 ,根据在大脑里生成的地图来决定每个时候的走向找到目标。 所谓地图,是指你和周围的物体(地标)以及周围的物体(地标)之间相对位置的几何。 在一个地图上, 所有的地标都获得了一个绝对的坐标, 即使你没有去过那个地方, 这个坐标依然告诉你它在什么位置。
为了研究相应的问题,我们可以把真实的空间去掉, 让小鼠在一个“时间迷宫”里(这个任务里缺乏固定的空间结构),单纯记住“左左右右左左右” 这样的动作序列来解决这个问题。 事实上小鼠这个时候已经很难完成这个任务。 这一系列的实验结果支持地图学说, 导致Tolman在1948年提出了Cognitive map的概念。 那就是 空间 或者 地图的概念在小鼠的大脑里是存在的, 成为其导航学习的基础。
这样的想法非常合理, 唯一的问题是我们的大脑里真有这样的结构吗? 这个观点在一组大名鼎鼎的细胞, grid cell和place cell之后可谓是登峰造极, 成为了科学的主流。 而它的发现者O'Keefe 和 Moser也获得了2014年的诺贝尔奖。
而海马, 仿佛就是cognitive map的生物载体。所谓place cell的含义非常简单, 就是当你不停的经过某个同样的地点,同一个细胞会放电。 而所谓Grid cell, 其特征是其感受野对空间进行周期性的放电,它可以把一个二维平面表现成一个密集堆积的六边形结构, 不同的grid-cell具有不同的空间周期。 认知地图的支持者认为,这个Grid cell正是那个先验的大脑里的欧式坐标系的载体。如果你对空间里的一个狄拉克函数(一个空间质点的表示)做傅里叶变换你会得到一系列不同周期频率的波函数, 反过来, 这群函数或许可以作为一组表达不同物体位置的基函数。 而Grid cell如果是对应了这群函数, 那么它将可以非常灵活的表达生物体在一个绝对坐标系里的位置,即使生物体运动到了一个完全陌生的环境。
进一步的, 海马区域被看做是个进行计划学习的一个特殊区域, 因为地图可以看做有关导航背后的一般结构, 那么其他任务呢? 或者海马可以提炼任何大类任务背后的结构性信息。


2, 情景记忆
而海马的另一个功能则与记忆有关, 我们每天都经过大量的事件, 这些事件不会随着流逝而消失,而是能够在一段时间被回忆起来,这说明我们大脑的某个区域里存在一个对暂时发生的事件的存储区间, 这个区域可能在什么位置呢? 动物实验再次把这个功能区域指向了海马。 大家看到的海马狭长的结构, 通常被理解为如同记忆的黑胶录像带, 把最近发生的情景按照时间和空间连城一串, 且可以随时读取和回放, 类似脑内RAM。
海马里的DG区(dentate gyrus)中文名齿状就是进行这一过程的基础。 这个区域的新细胞生成速度堪称所有成熟脑区中的第一, 这样方便编码大量新生的事件记忆(这种通过生成新细胞存储记忆的形式还未被计算机或AI利用)。
3, 海马两种功能的关系。
在此处我们看到海马的两种不同的功能似乎看上去关联不大。 构建空间认知地图的能力似乎与具体经历背后的共性有关, 而情景记忆恰好需要保留每一个具体事例的大量细节, 那么这种对个体经历的细节保留和抽象结构的学习似乎是矛盾的, 它们为什么会被统一到一个脑区里呢?
第一, 抽象的地图是从大量的具体事件中统计出来的。事实上科学发现迷宫里的小鼠在停下吃东西时候大脑甚至会对刚刚发生的事件进行大量的回放, 这种机制就好像是我们在做梦, 把白天发生的事件又重复了一遍。 这无疑某种程度构建了认知地图与记忆的关系。 刚刚发生的记忆,快速的周期回放, 在从中提取事件的相关性。


即使如此, 对具体事件和抽象结构的学习依然是截然不同的两件事, 因此促生了一个有关统计学习的重要理论假说,又被称为complementary learning system。 这个理论说的是这两种学习均可以统一在海马的两个不同的功能回路里, 一方面海马的DG区域存储每个个性化的经历并且使得不同的经历尽力独立的存储下来, 另一方面海马的CA1可以抽取不同事例中相通的部分, 这类似于事物背后的一般性结构信息, 比如不同旅行轨迹背后共同的空间。
下图即互补学习系统的示意图, 这个图中海马中的EC-DG-CA3回路负责进行个体记忆的存储, 这部分的功能是让每个不同的事件尽量独立分离, 方便存储。 而另一个回路, EC-CA1则相反, 它力图让不同的事件尽量的重叠, 以寻找事件之间的关联,从而方便统计规律的学习。 这就是互补学习系统。

三 Deepmind基于海马或海马启发的工作
由于刚刚所说的一般性的结构学习和记忆在人工智能中均具有的特殊地位, 研究和模拟海马也成为Deepmind多年以来的核心战略之一。 Deepmind不仅把海马导航和记忆的原理逐步搬运到AI中, 而且把海马学习空间导航的能力扩展到更一般的机器学习。
基于海马的工作:
1, hippocampus as a predictive map
Stachenfeld, Kimberly L., Matthew M. Botvinick, and Samuel J. Gershman. "The hippocampus as a predictive map."Nature neuroscience20.11 (2017): 1643.
这篇文章拓展了cognitive map的概念, 认为事实上hippocampus表征的不是生物当下的状态, 而是未来一系列变化可能性的总和(体现路径积分的概念)。 predictive map 与强化学习有很深刻的联系, 它强调导航问题必须在强化学习框架下理解, 预测性地图是比认知地图更广阔的概念, 而过去的认知地图变成仅仅是预测地图的一个特殊解。 这个理论框架比之前的专门针对导航任务的认知地图概念提升了一大步, 在这个框架下, 我们不需要用一种缺什么补什么的思维去寻找某个“位置细胞”或者“边角细胞” 。而是从整个网络编码的角度看, 把地图的本质- 一张可以预测未来状态的结构图表抽取出来, 从而提供一个可以供强化学习使用 。
那么相应的, 海马所擅长的不再只是导航和空间表示, 而是抽取这种对未来变化有预测性的结构图, 这应成为-后继表示, 是实现有模型的强化学习的一条捷径。

2,Design Principles of the Hippocampal Cognitive Map
Stachenfeld, Kimberly L., Matthew Botvinick, and Samuel J. Gershman. "Design principles of the hippocampal cognitive map."Advances in neural information processing systems. 2014.
这篇文章从抽象的数学理论基础上对刚刚的海马作为predictive map的预测性编码表示进行了分析,并且把它和更一般的图谱理论连接在一起, 从而把最初海马的grid cell, place cell 都统一在后继表示和图结构的数学理论下, 这样我们不仅能够预测海马在某个连续空间上的空间表示, 而且我们可以得到海马对分割开的空间或有层级的空间的表示。

3, Vector-based navigation using grid-like representations in artificial agents
Banino, A., Barry, C., Uria, B.et al.Vector-based navigation using grid-like representations in artificial agents.Nature557,429–433 (2018) doi:10.1038/s41586-018-0102-6
2018年大红大紫的文章,这篇文章试图直接把grid cell加入到人工智能导航体里, 通过监督学习预训练我们可以得到一个与生物grid cell 感受野特性类似的网络模型,而非常有趣的是, 如同当年的认知科学家所阐述的,当这个模块引入,导航体出现了类似于直接利用捷径这样的行为, 又称为更智能更灵活的导航方法。
而与空间结构的先验学派不同的是,DeepMind的这个Grid Cell 结构, 事实上是从利用监督学习进行引导的。 DeepMind 让人工“小鼠” 在方格空间里乱跑并预测其位置,在这个过程里, 如果适当的引入dropout这样的条件,它们表明就可以出现类似于Grid的细胞结构。 而这个结构正是刚刚说的寻找捷径行为的基础。论证的方法也和生物实验相同, 就是去掉这些细胞观测, 寻找捷径的行为消失了。
个人感觉, 这一篇文章虽然利用了海马表示的一个基本特征, 但是从框架上看比上一个“predictive map” 没有提供更多有效信息。

4, Replay in biological and artificial neural networks Zeb Kurth-Nelson, Will Dabney
基于海马的记忆回放机制, 我们针对性的提高强化学习的最核心环节-也就是对既往经历的记忆方式,这篇博客提出了一个重要的思想,就是我们并不需要像录像带一样机械的回放过往的经历, 而是用我们的想象力对过去的经历进行重组,得到更多的可能性, 就好比做梦一样, 同样的思路可能被用于AI的训练。
这一系列工作抓住了海马记忆的核心作用, 在于通过回放来方便强化学习, 而同时给做梦赋予了对学习有益的功能。事实上海马体细胞里最经常发现的现象就是周期性的放电,这组周期放电里每个细胞的相对发放顺序, 有时候看起来像在表征过去的经历(replay), 有时候像在预测未来(preplay)
5, What is a cognitive map? Organizing knowledge for flexible behavior
Behrens, Timothy EJ, et al. "What is a cognitive map? Organizing knowledge for flexible behavior."Neuron100.2 (2018): 490-509.
将海马对结构性信息的学习拓展到导航之外的一般任务, 作为认知推理的基础。 认为海马可以抽取具体事件外的结构性信息, 而这部分信息是可以泛化到各种不同的任务的,比如一般性的推理。 什么是抽象的结构性信息? 比如所有导航任务里空间的结构都是一样的。 而在各种学科知识分类任务里, 树形结构是共同的。 这种不同具体任务背后的抽象结构,通常暗含了某种结构连通性的知识。 这样, 海马便作为一个能够有效抽取这种结构性信息, 并且为后续任务服务的系统, 对统计学习具有至关重要的作用。

6. Generalization of structural knowledge in the hippocampal-entorhinal system
C.R. Whittington*, Timothy H. Muller*, Caswell Barry and Timothy E.J. Behrens
这篇文章,根据海马能够提炼抽象的结构化信息这点, 给出了一个海马系统的机器学习模型, 并且可以在一个九宫格上做各种推理游戏,可以看做海马从空间导航任务向更一般的推理任务的机器学习实现。
这个任务的设计非常巧妙, 我们在一个九宫格的栅格里, 放入一些日常见到的物体, 物品之间的关系, 由栅格的空间关系决定(下图)。 agent需要推理每一次下一步会出现什么物品。假定agent掌握了被放置物品背后的几何关系, 那么它将可以很灵活的根据自己所在的位置和动作, 推测出下一步将会出现的物体。 这个任务也体现了海马所掌握的结构信息对一般推理潜在的巨大作用。
这些工作可见对海马进行理论分析和建模是deepmind各类工作的重中之重, 对实现通用人工智能有极大的借鉴作用。

其他关于海马的有趣工作:
Space and Time: The Hippocampus as a Sequence Generator György Buzsáki1,2,3,* and David Tingley
关于海马的另一个研究思路, 是从振动和序列的角度来看海马的功能。 Buzsaki认为先前海马体里发现的表达空间或时间的细胞,本质上都是受到实验者的观测角度的限制,正如物理里时间和空间本质是相通的, 其实大脑对时间和空间的认知也是一回事,统一于序列。 我们所接受到的无非A,B,C等不同事件组成的序列, 在不同的情境下序列背后的统计规律决定了表达的是时间或者空间。 这种基于序列的思想,对理解海马,构建AI模型, 和理解我们的认知体系本身都有重大意义。
有关海马体计算功能的破译,对于设计功能更接近人脑的智能体意义重大,我们从大脑取经的道路依然任重道远。
元强化学习