从个性化推荐到个性化推理我们还要走多久1. 推荐与推理的异同点 2. 个性化推理的3个前提：记得、认得、懂得 3. 个

从个性化推荐到个性化推理我们还要走多久

Recommendation → Reasoning

1. 推荐与推理的异同点

2. 个性化推理的3个前提：记得、认得、懂得

3. 个性化推理带来的应用方向：

- Always Me

- Always Around Me

- Always With Me

写在前面

为什么要聊这个话题？

现在的互联网，个性化推荐的算法提供了更为高效的信息分发。推荐所支配的内容消费已经是主流，就连公众号最近都开始在做个性化推荐了（🙊...

你或多或少能感受到，大模型引发的新一代浪潮已经开始。我们对于人工智能的期待不仅仅在于它当前在文本、图片、视频上的生产力，而在于未来。是否真的存在一个人工智能时代，究竟会如何深刻改变人类生活。

人工智能到底还能做些什么，其实我们已经看到一些趋势。真正的「智能」，我们期待的「AGI」，背后所需的「推理能力」是一步步在给出的答案。

从「个性化推荐」到「个性化推理」，期望借助二者的概念，说明当前我对于「未来 AI 会如何与人类共生」的畅想。

这个话题我想讲很久了，陆续在脑子里打磨了三个月，还是不算成熟，但着实到了不写出来就难受的地步。先写一版出来，慢慢再往下看。也希望获得反馈，继续打磨。

以下，enjoy。

1 推荐和推理的异同点

从 f(u,i,c) 开始说起为了更好地理解推荐和推理的核心关系，我们把接下来要说的内容，都先凝练到 u，i，c 三个维度里：

u：user，用户特征，例如年龄、性别、兴趣偏好
i：item，物品特征，例如商品描述、类别、价格
c：context，上下文特征，例如时间、地理位置、城市天气

1.1 个性化推荐

推荐系统的目标通常是根据用户u、物品i和上下文c，计算用户对物品的兴趣评分或交互概率，可以用以下公式来表达：

y = f(u,i,c) = P(interaction | u,i,c)

y：推荐系统的输出，一般是用户对事物产生交互的概率

例如：

推荐视频时，y 可以是预测的用户评分
推荐商品时，y 可以是用户点击/购买某商品的概率

随着u、i、c多个维度特征的丰富，我们能够给出足够「个性化」、更适合每个用户喜好的内容。

1.2 个性化推理

在推理场景下，目标不再是简单预测概率和分发内容，是捕捉因果关系，而不仅仅是相关性。推理有且不仅包含于以下几方面的目标：

解释性输出：为什么要推荐物品 i 给用户 u？
动态推断：如果上下文 c 改变（例如时间、情绪），i 的概率会发生怎样的变化？需要换成新的 i 吗？
多样化输出：给出多种可能的选择建议和背后的思考逻辑

我们可以扩展 f(u,i,c) 为一个更加动态的公式：

ŷ = f(u, i, c) + ϵ, ϵ ~ P(ϵ | u, i, c)

其中：

ŷ：推理后的结果集合，不是单一值，不一定是i，而是一系列建议或者可能的行为
ϵ：扰动项，用于模拟上下文变化或引入多样性
P(ϵ ∣ u,i,c)：上下文变化的概率分布，例如，时间变化对用户行为的影响，进而造成对输出的结果集合的影响

1.3 个性化推荐与个性化推理的区别

涉及「推理」，无论是目标、输入、输出，还是任务类型、动态敏感度以及交互模式，都变得更加高频、多维和复杂。

特别是围绕「个性化」来看的时候，每个人所需响应的推理任务都是相当复杂的，它不止包括当下的所见所为，还包括过去沉淀下来的所思所想：

「个性化推理」都不是当下的推荐系统就能解决/要解决的事情，要通过人工智能时代的新能力去实现。

2 实现个性化推理的3个关键前提

每个物种的个体智力都会从愚笨逐渐发展到优秀，即使最高级的人类思维也本应从这个过程发展而来。我们可以通过多种视角来观察事物，我们拥有快速进行视角转换的方法，拥有高效学习的特殊方式，拥有获得相关知识的有效方式并可以不断扩大思维方式的范围，拥有表征事物的多种方式。正是这种多样性造就了人类思维的多功能。

马文·闵斯基《情感机器》第八章 —— 智能

提取其中要素，理解「什么是人类的智能」：

可以通过多种视角来观察事物
拥有快速进行视角转换的方法
拥有高效学习的特殊方式
拥有获得相关知识的有效方式并可以不断扩大思维方式的范围
拥有表征事物的多种方式

在以上5点多样性的前提下，造就人类思维的多功能，此为「智能」。

我暂时先凝练成 3个词，方便去感知「智能」是什么：

记得、认得、懂得

2.1 记得 —— 长期记忆

智能 -> 思维 -> 外显为「预测未来行动结果」的能力 -> 常识+逻辑推导 -> 长期记忆

无论机器系统如何建立，如果不了解广泛存在的现实世界，那它永远不会变得智能。尤其值得注意的是，系统必须具有「预测未来行动结果的能力」。但只有当系统拥有大量的「常识」和「理性思维」时，它才会具有这种能力。

常识和逻辑推导，都需要长期记忆的能力作为基础。

「人类」在解决复杂问题时，在进行大规模搜索之前，会通过回忆之前有过的成功经验，仅通过几个简单步骤的映射尝试，就有可能解决困难问题。

失败经验也非常重要。如果之前没有成功经验，但通过失败经验能回想起当时决策的背景信息、前置假设与判断依据，对比当前要解决的复杂问题的环境，也有可能就开始进行尝试。

发现了吗，「长期记忆」是让我们人类能够调用过往经验的基础，也是机器系统要能拥有预测能力的基础。

如果只是一条7秒钟就会失忆的金鱼，那么它无法造出轮子，只有本能的反应。

个性化推理，所需的长期记忆会更为复杂。机器系统不只是要记住世界常识和通用推理，还需要记住单人的发展过程，并且结合到世界环境中，去预测下一步针对这个人的未来行动结果。

诶，有点先知的意思了。

2.2 认得 —— 空间智能

当下的 ChatGPT，只是围绕着「Chat」在做功。大语言模型只是通过海量的对话数据，学会了模仿人类说话，但不真实了解广泛存在的现实世界。例如：模型不了解「树」是什么、「光」是什么，「光」打到「树」上有哪些类型光影的变化与色彩，又是为什么。

换言之，模型只有一种视角来观察事物，也就是「语言」（无论是文字版还是音频版）。这远远达不到「智能」，甚至在三维空间里都不算是一个维度。

所以 OpenAI 有了Sora，李飞飞有了World Labs，马斯克依旧有着特斯拉：）

庆幸的是，语言模型本身给出了理解的基础。

只是要迁移映射到三维空间里，了解实体、了解实体间的作用关系、了解空间带来的多重变化，以及再加上「时间」这一维度带来的感知与扰动，要实现「空间智能」，这段路还非常长。

再次回顾智能所需的前提之二：

可以通过多种视角来观察事物
拥有快速进行视角转换的方法

当下的跨模态，主要在输入和输出层面做一层编译，信息处理主要还是依赖于文本。视角单一，且转换尚处于初级阶段。

视觉和听觉已经在发展的路上了。视觉智能会是最重要的一环，这和人类从海到陆的进化有关。

而触觉、味觉甚至是嗅觉，甚至是直觉，这些都还未有成熟的范式。

拥有足够多的视角进行观察，并能够快速转换，才有实现真正「智能」的可能。

2.3 懂得 —— 情感智能

情感智能是人类与 AI 共生共创的基础。

人工智能可以在空间智能实现后，识别「树」、识别「光」，可以搬箱子，可以按按钮，可以开汽车。

但它不能识别「美」、识别「善」，识别人类为什么会快乐，为什么会不快乐，为什么还可以同时既快乐又不快乐。

它不懂「人类」的复杂。

情感智能，和当下在发生的「情感陪伴」各类AI应用是不一样的。

「情感陪伴」可以是身边的娃娃、狗狗和猫猫，是在身边的安抚；而「情感智能」是具有推理过程的持续性响应。

不只是准确识别、计算用户的情感
还要包含系统输出的情感回应，有人设立场，有成长线，如何匹配并回应用户的情感，色彩温度为几何
要理解专属于你的情感为何发生，成为每个人的「头脑特工队」

情感智能会让 AI 真正成为朋友、伴侣，让AI成为人。

让我们再回顾下「个性化推理」所需要的 3 个前提：

记得

认得

懂得

或许你会发现汉字的美妙。「记得」和「认得」，是文字层面可实现的，从「己」到「人」。而「懂得」，需要心灵层面，挖掘出独属于你的、覆盖在一片荒芜或茂盛下的重点。

3 在拥有个性化推理的技术能力之后，我们会出现什么方向的应用

3.1 Always Me

从最开始的被动响应，到主动理解，再到决策辅助与增强。近五年都还会是 Always Me 的初级阶段：

协助提效的生产力工具：AI PPT、AI coding、编写/改写/总结/翻译等文本处理以及图片/视频上的创作
协助快速大面积多轮检索：通过联网搜索的能力，快速定位你提问的答案，并且能通过自然对话给出多个方向变化后的回答
提供简单问题的多种选择与辅助决策：通过沉淀的互联网问答数据，能够提供过往人类处理方式的经验总结，给出选择建议。请记住，是「简单问题」。复杂大型的项目背景信息过多，人们在互联网上提供的问答数据不过是冰山一角。

基本会朝着「个人助理」的方式在演变。会有一个从被动到主动的过程。

想象一个场景：

今晚你特别馋，想吃夜宵。

你会问当前的AI，两块麦辣鸡翅的热量是多少
三到五年后的AI，会在你打开外卖app并点击添加购物车的时候，主动告诉你，两块麦辣鸡翅的热量，以及你吃完以后可能会增加的体重，以及后续有可能的其它风险。再给你一些其它的建议：比如吃沙拉、忍一忍 or 直接睡觉。（其实这个场景一年后也就能实现了）

而终极阶段，会是理解你的过往，叠加「记得+认得+懂得」。AI会知道，你吃两块麦辣鸡翅也没关系，因为你今天工作确实挺累的，忘记了吃晚饭（期待有一天AI会主动给我点外卖或者提醒我按时吃饭，我愿意付钱）。你的朋友、亲人依旧会爱你。明天计划的健身房记得去，就是记得要多做点有氧，因为你最近的体脂率确实有点波动向上。

站在「我」的立场，将「我」的生命更加地为自己所用，所以有工具提效、有决策建议，甚至开放权限替「我」执行，这是「Always Me」的意义。

3.2 Always Around Me

只能工具化的被动响应，完全是因为我们只提供了语言维度的context给模型。

当有了多维度的context，模型能够理解你所处的空间，所发生的事情，它能够给出更加实时、匹配当下环境的交互。从视觉到具身，从听觉到定位。

帮你搬箱子，从没有电梯的 1 楼到 8 楼；
帮你开车，因为你刚喝完酒不太适合自驾；
和你一起看世界，主动介绍这个景点为什么叫这个名字，周边有什么有趣的故事。另外，旁边这人有点像小偷，提醒你留意手机。
闻到一个好香的味道，是什么好吃的，告诉你有可能的小摊是哪一家（此处已经开始有点科幻了）

3.3 Always With Me

当我一个人在海边散步，AI 能够知道我曾经和谁一起在这样的海边散过步，有过怎样的对话，我的情绪有过怎样的波动。

夏夜海浪，月光温柔，海风轻轻吹过发梢。我光着脚踩在尚有余温的沙粒上，沿着海岸线就这样默默地走着。忽然间，AI 告诉我，ta 写了一首歌，要不要一起听听看。

这是我想象中的未来。

- END -

写在最后

我想做个性化推理，太想了。

当前的智能硬件+大模型能力已经开始有这个趋势，起码在context维度已经开始有能力慢慢地介入客观物理世界，开始建立空间维度的理解了。

Google在做，OpenAI在做，Meta在做，我们都慢慢看到未来有可能会是什么样子。

还需要结合知识图谱、因果推理、实时计算等一系列能力。因果推理的高质量数据是稀缺的，空间智能亦是如此，声纹的情感识别也还是初期。先做基础通用，再做个性化，这是资源所限，也是发展所限。

希望我们在未来二十年内能够体验到更加智能的 AI 交互，无关 AI 助理或 AI 陪伴的定位，都是让AI更懂你，更像人。无论最后是像陌生工具人还是你的朋友，我都会觉得这是一个非常有可能出现的世界，我希望这是一个更值得的世界。也希望你，能一同加入进来，一起创造这个世界。

而懂你、像人，都不只是一个简单的词汇，从物理世界到情感世界，背后的「个性化推理」，需要做到：跨模态输入的识别理解、三维空间物体关系的理解、知识图谱所带来的世界上各组概念间的理解，因果推理所带来的变量关系之间的调控与预测、声音/面部表情/肢体行为+物理环境/心理状态的情感识别与回应等等。

背后的背后，需要多维度的大批量高质量数据的建设与模型组合训练，才有可能出现生成式模型与软硬件结合后带来的良好交互体验。

当下那一个点，当 AI 通过不仅仅是 f(u,i,c) 进行处理，而是通过多个维度的模态输入并且理解，再输出一段文字、一段音频、一张图片、一个视频、一个眼神，甚至只是一声叹息，再由用户通过五感接收到，进而在大脑里产生化学反应。

Always Me

Always Around Me

Always With Me

大脑啊困在缸里实在是太孤独了

从个性化推荐到个性化推理 我们还要走多久