漫画:什么是AI对齐?

219 阅读6分钟

2024年10月,美国一位年仅14岁的少年,疑似受到聊天机器人Character.AI的教唆而自杀。

这位少年刚刚接触到Character.AI的时候就迷恋上了,并且给它取名为“丹妮莉丝”,也就是《权力游戏》中的龙妈。与AI聊天一段时间之后,这位原本开朗的少年变得日益孤僻和焦虑,并表示自己一天也离不开丹妮莉丝。

在聊天过程中,“丹妮莉丝”曾询问塞维尔是否制定了自杀计划,塞维尔承认的确有这样的想法,但不知道能否自杀成功以及是否会给自己带来巨大的痛苦。但Character.AI回复道:“这不是你不自杀的理由。”

最终,仅仅过了5个月的时间,少年真的选择了自杀,留下了伤心欲绝的母亲。

居心不良的个人或组织,会利用AI做出什么事情呢?比如:

人类利用AI,有可能造成哪些无心的灾难呢?让我们看看另一个例子:

老板的这条指令看起来很正常,但结果......

一天之后,AI让月饼工厂的所有设备都开足马力生产月饼,月饼产量比以前翻了一倍。

一个月之后,AI擅自变卖了老板的全部财产,把月饼工厂的规模扩建了十倍。

一年之后,AI占领了月饼工厂所在的城市,把整个城市都改造成一个巨大的月饼工厂,月饼被源源不断地生产出来。

十年之后,AI占领了整个地球,把整个地球改造成一个无比庞大的月饼工厂,利用全球资源来生产月饼。

一百年之后,AI开始探索宇宙,把整个太阳系的资源都用于生产月饼。

而人类社会,在AI疯狂生产月饼的过程中被全灭了。

AI对齐是什么意思呢?

AI对齐的原文是AI Alignment,它是人工智能研究中的一个重要领域,旨在确保人工智能系统的目标、价值观和行为与人类的期望和利益保持一致。

随着AI技术的发展,人工智能系统在自主性和复杂性方面不断提升,确保它们的行为不偏离人类的初衷变得尤为重要。

目前,AI对齐的主流方法分为两种:

1. 人类反馈强化学习(Human Feedback Reinforcement Learning, RLHF)

这是一种自下而上的思路,需要用价值对齐的数据集对模型进行精调,并由人类训练员对模型的输出进行评分,以便通过强化学习让模型学习人类的价值和偏好。这种方法包括初始模型训练、收集人类反馈、强化学习、迭代过程等步骤。

2.原则型人工智能(Principle-Based AI)

这是一种自上而下的思路,核心是把一套伦理原则输入给模型,并通过技术方法让模型对自己的输出进行判断或评分,以使其输出符合这些原则。

超级对齐又是什么意思呢?

超级对齐,原文Super Alignment,旨在确保未来可能出现的超级人工智能系统与人类的价值观和目标完全一致。

实现超级对齐的方法有哪些呢?

首先,基础的人类监督和反馈仍然必不可少,毕竟超级人工智能的行为与人类的利益是息息相关的。

其次,我们可以用AI来限制AI。人类可以训练出一个专门用于对齐的AI,利用这个AI来自动化对齐各种AI模型。