开源AI究竟是什么?

125 阅读6分钟

开源促进会(OSI)发布了开源AI的定义,旨在引发讨论,并已成为与欧盟委员会等沟通的工具。定义强调透明性,但对数据所有权未做要求。面临的挑战包括数据集的萎缩和AI公司与出版商之间的不平衡关系。

译自:What Is Open Source AI Anyway?

作者:Frederic Lardinois

阿姆斯特丹 - 去年十月,开源促进会 (OSI) 发布了关于 AI 模型要成为开源需要满足的定义。当时,OSI 执行董事 Stefano Maffulli 表示,该定义的目的是为了引发讨论。

事实证明确实如此。尽管开发者们普遍对开放权重模型及其许可证采取了一种相当务实的态度,但对于许多想要更激进定义的人来说,OSI 的定义仍有不足之处。尤其是在用于训练模型的数据方面,OSI 的定义要求必须详细描述,但不一定要提供。

定义开源 AI

在阿姆斯特丹的开源峰会上,我与 Maffulli 坐下来讨论了当前讨论的进展情况。他指出,讨论不仅已经开始,而且该定义已经成为 OSI 与包括欧盟委员会在内的政治家沟通的工具,例如,欧盟的《人工智能法案》将于 2026 年 8 月全面生效。

“在与欧盟委员会以及在某种程度上与美国和华盛顿的讨论中,这对于我们推动对《人工智能法案》和[欧盟的]通用人工智能指南的解读,一直是一个非常有用的工具,”Maffulli 说。“《人工智能法案》的目的是消除摩擦,并为开源开发者和学术研究人员提供特权访问。”

一张标题为“引言 - 我们是如何走到这一步的”的演示幻灯片。它列出了开源促进会 (OSI) 的关键日期和事件及其与人工智能,特别是大型语言模型的关系。时间线包括:1998 年(OSI 成立),2007-2015 年(开源软件的增长),2019-2020 年(转向模型驱动的 AI),2021 年(大型语言模型或 LLM 的爆发),2022 年(公司限制对 AI 模型的访问),2022 年 12 月(ChatGPT 病毒式传播),2023 年 4 月(OSI 宣布其定义“开源 AI”或 OSAID 的努力),以及 2024 年 10 月(OSI 发布 OSAID v1.0)。

图片来源:The New Stack

他指出,该指南是欧盟委员会对《人工智能法案》的解读,并定义了“通用人工智能模型”(包括几乎所有大型语言模型)的提供商在《人工智能法案》下的义务。该法案和指南特别包括对开源 AI 模型的豁免。Maffulli 指出,这遵循了 OSI 开源 AI 定义中也编码的所有原则。

“他们基本上说,为了消除这些障碍,你需要保持透明。因此,你需要非常清楚地说明训练集中包含了什么,”他指出,并强调政治家们理解为什么通常不可能提供完整的训练集。

“他们完全理解问题所在。你没有版权,没有他们正在分发的数据的所有权。所以他们知道是什么促成了《版权法》的修订,该修订为文本和数据挖掘提供了例外。文本和数据挖掘例外明确表示,你可以自由地积累所有数据,搜索和抓取网络,并对数据做任何你想做的事情。一旦你完成了分析,就扔掉数据。这些数据不是你的。这正是引起共鸣的地方。它起作用了。”

Maffulli 说,在与更广泛的开源社区合作时,很多工作都是关于澄清开源 AI 的定义。像 Qwen 这样流行的模型可能是开放权重的,并且在 OSI 批准的许可下获得许可,但开发者没有工具、代码和数据来复制 Qwen 团队构建模型所做的工作。

Maffulli 承认,OSI 的定义设定了很高的门槛,目前很少有模型真正通过该标准。

开源促进会 从来都不是规定性的。我们不是一个强制执行罚款的标准机构。当然,也有指责者。有些人乐于指责你并大喊你错了。但在开源[总体上],这个定义来自实践和从业者,我认为开源 AI 定义的演变将遵循与技术演变、实践演变和法律演变相同的道路,这是我们 20 年前不必考虑的事情,而现在我们必须考虑了。”

开放数据

他现在特别感兴趣的一个领域是构成新模型训练数据的数据集。他说,许多公司并没有寻求构建更能抵御诉讼的数据集(“我不会从版权的角度称它们为安全的,因为没有什么是安全的。这是我们正在学习的另一件事,”他说)。

现在,许多公司很难从公共网络上创建大型数据集,他将公共网络描述为“正在萎缩”。Maffulli 说,作为最大的网络爬取数据存储库 Common Crawl,在扩展其数据集方面遇到了困难,部分原因是网络越来越多地受到 AI 垃圾信息的污染,但也因为许多大型网站和出版商要求删除他们的数据。

这又回到了一个日益紧迫的讨论,即构建 AI 模型的公司与在线出版商之间的关系。这些模型依赖于高质量的数据,这些数据通常来自新闻机构或像 Reddit 和 Stack Overflow 这样的大型网站,但这些网站总是依赖 Google 和其他搜索引擎来向他们发送读者——然后他们可以利用这些读者来继续制作这些内容。大型语言模型作为搜索引擎的替代品的兴起正在迅速颠覆这种关系,因为很少有用户会点击 LLM 的引用。

Maffulli 在这方面的立场可能不会受到出版商的欢迎。“如果我们想要一个公共 AI,我们需要保护公共网络,”他说。“我们需要保障税收,并将其从出版商手中夺走。我认为除了打 Google Books 牌之外别无他法。出版商不应该有发言权。就像我们在 Google Books 中使用的概念也需要适用于 AI,适用于 AI 训练一样——以换取公共 AI。你想与 OpenAI 达成秘密协议,请便。但如果我是另一家 AI 公司——如果我是艾伦人工智能研究所,我想做公共 AI,那么,对某些人来说,这似乎是公平的。”

他认为,AI 公司与出版商和像 Common Crawl 这样的项目之间的关系是不平衡的。但截至目前,我们既没有法律框架(因为他说,版权在这种规模上不起作用),也没有技术框架来恢复这种平衡。

我还要争辩说,对于出版商来说,访问基于他们的数据训练的公共 AI 可能不足以使他们的数据公开可用。

“如果我们想要真正公开的数据集——我们可以共享、可以构建的数据集,并且我们可以构建大型的——我们正在谈论大型的——语言模型,GPT 风格的技术,我们还有很多工作要做。我们需要研究这些。我们需要讨论治理。我们没有好的方法来证明所有权。”