人类智能
- 👀感知环境
人类是如何感知环境的?我们通过眼睛获得这个世界的影像,我们通过耳朵获得声音信息,我们通过皮肤获得触感,我们通过鼻子获得嗅觉,通过舌头获得味觉。这些感知系统通过神经元传递到我们大脑进行分析,再有大脑解析为特定的感觉。
- 🤔思考
感知环境之后,我们就开始思考。我们会先去大脑的存储里面检索我们是否曾经遇过类似的问题,或者我们总结的一些思维方法,比如抽象,分治,基于以往的知识,再附加当前的问题,我们就能计划出一套解决方案。(当然也可能是消极的解决方案,摆烂🐶)
- 🏃行动
接下去我们就要做出反应,这个反应可能是改变环境以达到我们的需求,比如马路中间有一个石头,我们可能做出的反应就是把石头搬开,这个就是改进环境。也可能是改变自己,还是刚刚那个例子我们可能就是改变我们的行进路线。人类在生物竞赛中以降维打击的优势获得胜利的一个很大原因是我们会使用工具,创造工具。还是刚刚那个例子假如这块石头很大我们搬不开怎么办?这个时候我们可能会利用杠杆原理来撬动它。
通用人工智能
🧭通用人工智能(AGI):一个在任何领域都能达到人类水平的AI。
通用人工智能是科技发展的一个长期追求目标。随着近几年大语言模型初步展现的智能,使通用人工智能这个原本遥不可及的目标被提上了日程。更多被提及的通用人工智能实现途径是通过具身智能的方式。
具身智能(Embodied Intelligence):通过与环境的交互来获取信息,并且能够自主做出决策,行动的物理存在物。
基于人类智能的分析,要实现类人智能的具身智能,我们应该也需要包括这几块能力:
- 感知
当前的计算机视觉(CV),计算机语音正在实现这一功能。
- 记忆
这个本质上就是一个存储,但是由于人类的知识过于庞大,这里主要研究如何高效检索知识.
- 计划
这个是Agent的核心,也是体现机器智能的地方。当前的LLM通过COT(思维链)能够初步实现自主规划。
- 行动
这里需要借助工具的力量,让Agent学会使用当前已经有的工具。
在以上的4个模块中,计划是最核心的,也是最难以实现的,而大语言模型表现出来的智能只好能够填补这块能力,这也是大语言模型出现之后,整个行业都在说通用人工智能即将实现的原因。