从个性化推荐到个性化推理 我们还要走多久

117 阅读14分钟

从个性化推荐到个性化推理 我们还要走多久

Recommendation → Reasoning

1. 推荐与推理的异同点

2. 个性化推理的3个前提:记得、认得、懂得

3. 个性化推理带来的应用方向:

- Always Me

- Always Around Me

- Always With Me


写在前面

为什么要聊这个话题?

现在的互联网,个性化推荐的算法提供了更为高效的信息分发。推荐所支配的内容消费已经是主流,就连公众号最近都开始在做个性化推荐了(🙊...

你或多或少能感受到,大模型引发的新一代浪潮已经开始。我们对于人工智能的期待不仅仅在于它当前在文本、图片、视频上的生产力,而在于未来。是否真的存在一个人工智能时代,究竟会如何深刻改变人类生活。

人工智能到底还能做些什么,其实我们已经看到一些趋势。真正的「智能」,我们期待的「AGI」,背后所需的「推理能力」是一步步在给出的答案。

从「个性化推荐」到「个性化推理」,期望借助二者的概念,说明当前我对于「未来 AI 会如何与人类共生」的畅想。

这个话题我想讲很久了,陆续在脑子里打磨了三个月,还是不算成熟,但着实到了不写出来就难受的地步。先写一版出来,慢慢再往下看。也希望获得反馈,继续打磨。

以下,enjoy。


1  推荐 和 推理 的异同点

从 f(u,i,c) 开始说起为了更好地理解 推荐 和 推理 的核心关系,我们把接下来要说的内容,都先凝练到 u,i,c 三个维度里:

  • u:user,用户特征,例如年龄、性别、兴趣偏好
  • i:item,物品特征,例如商品描述、类别、价格
  • c:context,上下文特征,例如时间、地理位置、城市天气

1.1 个性化推荐

推荐系统的目标通常是根据用户u、物品i和上下文c,计算用户对物品的兴趣评分或交互概率,可以用以下公式来表达:

y = f(u,i,c) = P(interaction | u,i,c)

y:推荐系统的输出,一般是用户对事物产生交互的概率

例如:

  • 推荐视频时,y 可以是预测的用户评分
  • 推荐商品时,y 可以是用户点击/购买某商品的概率

随着u、i、c多个维度特征的丰富,我们能够给出足够「个性化」、更适合每个用户喜好的内容。

1.2 个性化推理

在推理场景下,目标不再是简单预测概率和分发内容,是捕捉因果关系,而不仅仅是相关性。推理有且不仅包含于以下几方面的目标:

  • 解释性输出:为什么要推荐物品 i 给用户 u?
  • 动态推断:如果上下文 c 改变(例如时间、情绪),i 的概率会发生怎样的变化?需要换成新的 i 吗?
  • 多样化输出:给出多种可能的选择建议和背后的思考逻辑

我们可以扩展 f(u,i,c) 为一个更加动态的公式:

ŷ = f(u, i, c) + ϵ,  ϵ ~ P(ϵ | u, i, c)

其中:

  • ŷ:推理后的结果集合,不是单一值,不一定是i,而是一系列建议或者可能的行为
  • ϵ:扰动项,用于模拟上下文变化或引入多样性
  • P(ϵ ∣ u,i,c):上下文变化的概率分布,例如,时间变化对用户行为的影响,进而造成对输出的结果集合的影响

1.3 个性化推荐与个性化推理的区别

涉及「推理」,无论是目标、输入、输出,还是任务类型、动态敏感度以及交互模式,都变得更加高频、多维和复杂。image.png

特别是围绕「个性化」来看的时候,每个人所需响应的推理任务都是相当复杂的,它不止包括当下的所见所为,还包括过去沉淀下来的所思所想:

image.png 「个性化推理」都不是当下的推荐系统就能解决/要解决的事情,要通过人工智能时代的新能力去实现。


2  实现个性化推理的3个关键前提

每个物种的个体智力都会从愚笨逐渐发展到优秀,即使最高级的人类思维也本应从这个过程发展而来。我们可以通过多种视角来观察事物,我们拥有快速进行视角转换的方法,拥有高效学习的特殊方式,拥有获得相关知识的有效方式并可以不断扩大思维方式的范围,拥有表征事物的多种方式。正是这种多样性造就了人类思维的多功能。

马文·闵斯基 《情感机器》第八章 —— 智能

提取其中要素,理解「什么是人类的智能」:

  1. 可以通过多种视角来观察事物

  2. 拥有快速进行视角转换的方法

  3. 拥有高效学习的特殊方式

  4. 拥有获得相关知识的有效方式并可以不断扩大思维方式的范围

  5. 拥有表征事物的多种方式

在以上5点多样性的前提下,造就人类思维的多功能,此为「智能」。

我暂时先凝练成 3个词,方便去感知「智能」是什么:

记得、认得、懂得

2.1 记得 —— 长期记忆

智能 -> 思维 -> 外显为「预测未来行动结果」的能力 -> 常识+逻辑推导 -> 长期记忆

无论机器系统如何建立,如果不了解广泛存在的现实世界,那它永远不会变得智能。尤其值得注意的是,系统必须具有「预测未来行动结果的能力」。但只有当系统拥有大量的「常识」和「理性思维」时,它才会具有这种能力。

常识和逻辑推导,都需要长期记忆的能力作为基础。

「人类」在解决复杂问题时,在进行大规模搜索之前,会通过回忆之前有过的成功经验,仅通过几个简单步骤的映射尝试,就有可能解决困难问题。

失败经验也非常重要。如果之前没有成功经验,但通过失败经验能回想起当时决策的背景信息、前置假设与判断依据,对比当前要解决的复杂问题的环境,也有可能就开始进行尝试。

发现了吗,「长期记忆」是让我们人类能够调用过往经验的基础,也是机器系统要能拥有预测能力的基础。

如果只是一条7秒钟就会失忆的金鱼,那么它无法造出轮子,只有本能的反应。

个性化推理,所需的长期记忆会更为复杂。机器系统不只是要记住世界常识和通用推理,还需要记住单人的发展过程,并且结合到世界环境中,去预测下一步针对这个人的未来行动结果。

诶,有点先知的意思了。

2.2 认得 —— 空间智能

当下的 ChatGPT,只是围绕着「Chat」在做功。大语言模型只是通过海量的对话数据,学会了模仿人类说话,但不真实了解广泛存在的现实世界。例如:模型不了解「树」是什么、「光」是什么,「光」打到「树」上有哪些类型光影的变化与色彩,又是为什么。

换言之,模型只有一种视角来观察事物,也就是「语言」(无论是文字版还是音频版)。这远远达不到「智能」,甚至在三维空间里都不算是一个维度。

所以 OpenAI 有了Sora,李飞飞有了World Labs,马斯克依旧有着特斯拉 :)

庆幸的是,语言模型本身给出了理解的基础。

只是要迁移映射到三维空间里,了解实体、了解实体间的作用关系、了解空间带来的多重变化,以及再加上「时间」这一维度带来的感知与扰动,要实现「空间智能」,这段路还非常长。

再次回顾智能所需的前提之二:

  1. 可以通过多种视角来观察事物

  2. 拥有快速进行视角转换的方法

当下的跨模态,主要在输入和输出层面做一层编译,信息处理主要还是依赖于文本。视角单一,且转换尚处于初级阶段。

视觉和听觉已经在发展的路上了。视觉智能会是最重要的一环,这和人类从海到陆的进化有关。

而触觉、味觉甚至是嗅觉,甚至是直觉,这些都还未有成熟的范式。

拥有足够多的视角进行观察,并能够快速转换,才有实现真正「智能」的可能。

2.3 懂得 —— 情感智能

情感智能是人类与 AI 共生共创的基础。

人工智能可以在空间智能实现后,识别「树」、识别「光」,可以搬箱子,可以按按钮,可以开汽车。

但它不能识别「美」、识别「善」,识别人类为什么会快乐,为什么会不快乐,为什么还可以同时既快乐又不快乐。

它不懂「人类」的复杂。

情感智能,和当下在发生的「情感陪伴」各类AI应用是不一样的。

「情感陪伴」可以是身边的娃娃、狗狗和猫猫,是在身边的安抚;而「情感智能」是具有推理过程的持续性响应。

  • 不只是准确识别、计算用户的情感

  • 还要包含系统输出的情感回应,有人设立场,有成长线,如何匹配并回应用户的情感,色彩温度为几何

  • 要理解专属于你的情感为何发生,成为每个人的「头脑特工队」

情感智能会让 AI 真正成为朋友、伴侣,让AI成为人。


让我们再回顾下「个性化推理」所需要的 3 个前提:

记得

认得

懂得

或许你会发现汉字的美妙。「记得」和「认得」,是文字层面可实现的,从「己」到「人」。而「懂得」,需要心灵层面,挖掘出独属于你的、覆盖在一片荒芜或茂盛下的重点。


3  在拥有个性化推理的技术能力之后,我们会出现什么方向的应用

3.1 Always Me

从最开始的被动响应,到主动理解,再到决策辅助与增强。近五年都还会是 Always Me 的初级阶段:

  1. 协助提效的生产力工具:AI PPT、AI coding、编写/改写/总结/翻译等文本处理以及图片/视频上的创作

  2. 协助快速大面积多轮检索:通过联网搜索的能力,快速定位你提问的答案,并且能通过自然对话给出多个方向变化后的回答

  3. 提供简单问题的多种选择与辅助决策:通过沉淀的互联网问答数据,能够提供过往人类处理方式的经验总结,给出选择建议。请记住,是「简单问题」。复杂大型的项目背景信息过多,人们在互联网上提供的问答数据不过是冰山一角。

基本会朝着「个人助理」的方式在演变。会有一个从被动到主动的过程。

想象一个场景:

今晚你特别馋,想吃夜宵。

  • 你会问当前的AI,两块麦辣鸡翅的热量是多少

  • 三到五年后的AI,会在你打开外卖app并点击添加购物车的时候,主动告诉你,两块麦辣鸡翅的热量,以及你吃完以后可能会增加的体重,以及后续有可能的其它风险。再给你一些其它的建议:比如吃沙拉、忍一忍 or 直接睡觉。(其实这个场景一年后也就能实现了)

而终极阶段,会是理解你的过往,叠加「记得+认得+懂得」。AI会知道,你吃两块麦辣鸡翅也没关系,因为你今天工作确实挺累的,忘记了吃晚饭(期待有一天AI会主动给我点外卖或者提醒我按时吃饭,我愿意付钱)。你的朋友、亲人依旧会爱你。明天计划的健身房记得去,就是记得要多做点有氧,因为你最近的体脂率确实有点波动向上。

站在「我」的立场,将「我」的生命更加地为自己所用,所以有工具提效、有决策建议,甚至开放权限替「我」执行,这是「Always Me」的意义。

3.2 Always Around Me

只能工具化的被动响应,完全是因为我们只提供了语言维度的context给模型。

当有了多维度的context,模型能够理解你所处的空间,所发生的事情,它能够给出更加实时、匹配当下环境的交互。从视觉到具身,从听觉到定位。

  • 帮你搬箱子,从没有电梯的 1 楼到 8 楼;

  • 帮你开车,因为你刚喝完酒不太适合自驾;

  • 和你一起看世界,主动介绍这个景点为什么叫这个名字,周边有什么有趣的故事。另外,旁边这人有点像小偷,提醒你留意手机。

  • 闻到一个好香的味道,是什么好吃的,告诉你有可能的小摊是哪一家(此处已经开始有点科幻了)

3.3 Always With Me

当我一个人在海边散步,AI 能够知道我曾经和谁一起在这样的海边散过步,有过怎样的对话,我的情绪有过怎样的波动。

夏夜海浪,月光温柔,海风轻轻吹过发梢。我光着脚踩在尚有余温的沙粒上,沿着海岸线就这样默默地走着。忽然间,AI 告诉我,ta 写了一首歌,要不要一起听听看。

这是我想象中的未来。

- END -


写在最后

我想做个性化推理,太想了。

当前的智能硬件+大模型能力已经开始有这个趋势,起码在context维度已经开始有能力慢慢地介入客观物理世界,开始建立空间维度的理解了。

Google在做,OpenAI在做,Meta在做,我们都慢慢看到未来有可能会是什么样子。

还需要结合知识图谱、因果推理、实时计算等一系列能力。因果推理的高质量数据是稀缺的,空间智能亦是如此,声纹的情感识别也还是初期。先做基础通用,再做个性化,这是资源所限,也是发展所限。

希望我们在未来二十年内能够体验到更加智能的 AI 交互,无关 AI 助理或 AI 陪伴的定位,都是让AI更懂你,更像人。无论最后是像陌生工具人还是你的朋友,我都会觉得这是一个非常有可能出现的世界,我希望这是一个更值得的世界。也希望你,能一同加入进来,一起创造这个世界。

而懂你、像人,都不只是一个简单的词汇,从物理世界到情感世界,背后的「个性化推理」,需要做到:跨模态输入的识别理解、三维空间物体关系的理解、知识图谱所带来的世界上各组概念间的理解,因果推理所带来的变量关系之间的调控与预测、声音/面部表情/肢体行为+物理环境/心理状态的情感识别与回应 等等。

背后的背后,需要多维度的大批量高质量数据的建设与模型组合训练,才有可能出现生成式模型与软硬件结合后带来的良好交互体验。

当下那一个点,当 AI 通过不仅仅是 f(u,i,c) 进行处理,而是通过多个维度的模态输入并且理解,再输出一段文字、一段音频、一张图片、一个视频、一个眼神,甚至只是一声叹息,再由用户通过五感接收到,进而在大脑里产生化学反应。

Always Me

Always Around Me

Always With Me

大脑啊 困在缸里 实在是太孤独了