举报人「自杀」,OpenAI 表示震惊!NYU 教授发长文悼念:警钟仍在回响

352 阅读5分钟

【新智元导读】曾任 OpenAI 核心研发者的 Suchir Balaji,于 10 月发文直指 ChatGPT 等生成式 AI 违背「合理使用」原则。然而,上月底 26 岁的他被发现离世,疑为自杀。马库斯发文悼念,称 Suchir 是个勇敢的年轻人,他对 AI 训练数据的版权问题提出的担忧「切中要害」。

几天前,消息曝出,曾在 OpenAI 工作四年,指控公司侵犯版权的 Suchir Balaji,上月底在旧金山公寓中被发现死亡,年仅 26 岁。

Suchir Balaji 曾参与了 ChatGPT 后训练、GPT-4 预训练,以及 o1 推理的研发工作。

今年 10 月,他在自己的一篇博文和「纽约时报」的专访中指出,OpenAI 在使用新闻和其他网站的信息训练其 AI 模型时,违反了「合理使用」原则。

补充阅读:26 岁 OpenAI 举报人疑自杀!死前揭 ChatGPT 训练黑幕

目前,OpenAI 的发言人已经证实了 Balaji 的离世,并在邮件中表达了沉痛的哀悼。

而正与 OpenAI CEO 奥特曼陷入法律纠纷的马斯克,则在 X 平台上发了一个耐人寻味的 「Hmm」。

在消息曝出当日,马库斯迅速在 X 上发帖悼念:

「Suchir Balaji 是个很好的年轻人。」

「这是悲剧。」

第二天,他专门撰写了一篇博客,来纪念 Suchir Balaji。

纪念 Suchir Balaji(1998 - 2024)

11 月初,马库斯通过 Zoom 与毕业于伯克利的前 OpenAI 员工 Suchir Balaji,进行了一次富有启发性的交谈。

让人痛心的是,他在短短三周之后,便离开了这个世界。

根据警方报告,这似乎是一起自杀事件。

马库斯表示,关于二人的通话内容,可以不违背保密原则地说:「Suchir Balaji 对 OpenAI 和版权问题表示担忧;而正是由于这些共同的顾虑,他们才得以相识。」

在 10 月的个人博客里,Balaji 发表了一篇文章,探讨了我们这个时代最重要的问题之一:生成式 AI 是否符合「合理使用」(fair use)的标准?

博文地址:suchir.net/fair_use.ht…

在这篇博文中,Balaji 详细分析了美国《1976 年版权法》第 107 条中定义的四个合理使用因素,特别关注了以下两个因素:

  1. 使用的目的和性质:Balaji 指出,ChatGPT 等生成式 AI 模型的商业性质可能不利于被视为合理使用。

  2. 对受版权保护作品潜在市场或价值的影响:他引用了一些研究,论证 ChatGPT 的出现可能对某些在线知识社区(如 Stack Overflow)的流量和用户参与度产生负面影响,进而影响这些平台的市场价值。

其实,AI 训练数据的版权问题早已存在。一年前,当《纽约时报》起诉 OpenAI 并证实了其输出内容与网站上的部分报道高度相似时,OpenAI 在文本和版权方面的问题就已经开始凸显。

类似的现象也出现在图像和视频生成领域。今年一月,马库斯和 Reid Southen 在《IEEE Spectrum》上揭示了图像生成软件(如 Midjourney 和 DALL-E)存在的类似问题。

他们发现的最令人震惊的现象是,即便没有直接点名,系统也会产生类似抄袭商业角色的复制品。

比如,输入「意大利水管工」就会生成任天堂的马里奥角色,而指令里完全没有提到马里奥这个名字。

相比之下,真正的艺术家理应会创造一个全新的、原创的水管工形象。

将近一年过去了,明显的侵权问题依然存在。

OpenAI 最新发布的视频生成模型 Sora 与其他 AI 一样,显然是在大量受版权保护的材料上进行了训练。

与前代产品相似,它也会不时产生缺乏创意、近似抄袭的输出,就像 Southen 生成的这些例子:

超级英雄复仇的电影场景

一个有意大利人的横版游戏

无独有偶,TechCrunch 也在几天前指出了相同的问题。报道称,OpenAI 从未公开 Sora 所使用的训练数据来源,但从目前的结果来看,至少有部分数据可能来自 Twitch 直播和电子游戏实况。

法律专家警告:OpenAI 疑似将游戏内容用作 Sora 训练数据恐将引发法律争议

比如,它可以生成类似于使命召唤和反恐精英风格的第一人称射击游戏片段。

还有充满 90 年代《忍者神龟》风格的街机格斗游戏片段。

Sora 似乎还对 Twitch 直播的格式有所了解。下面这张视频截图中可以看到,大体的布局和细节都得到了还原。

甚至,这张截图中出现了著名 Twitch 主播 Raúl Álvarez Genes(网名 Auronplay)的影像,甚至连他左臂的纹身都被「复刻」了出来。

这些版权问题的严重性已经不言而喻。Suchir 的担忧确实切中要害。

然而,挑战既定观念总是要付出代价的。

正如《印度时报》所指出的,Suchir「对 OpenAI 涉嫌侵犯版权的公开批评... 使他的离世备受关注,引发人们对敢于反对强大科技企业的人所承受的压力和挑战的深思」。

虽然我们无从得知他离世的真正原因,但愿人们不会忘记 Suchir 的担忧和他展现的勇气。

加州 SB-1047 举报人保护法案被否决令人遗憾。社会确实需要采取更多措施来保护像 Suchir Balaji 这样的人。

最后,让我们引用 Suchir 在十月份博客结论中的一段话作为结尾:

在合理使用的四个构成要素中,似乎没有任何一项支持 ChatGPT 可以合理使用其当前的训练数据。

然而,这些论据本质上并非仅针对 ChatGPT,类似的论点同样适用于各个领域中的众多生成式 AI 产品。

参考资料:

garymarcus.substack.com/p/generativ…

x.com/GaryMarcus/…