维基百科与多家AI巨头达成内容使用协议
维基媒体基金会宣布了一系列与人工智能公司的新合作伙伴关系,这些公司将能够使用维基百科的内容来训练和驱动其AI模型。这是该非营利组织在不断变化的网络行为中寻求保障其长期可持续性的举措。
这些协议是通过Wikimedia Enterprise签署的,这是基金会专为大规模重用和分发维基媒体项目内容而设计的商业产品。新签约方包括Ecosia、某中心、Mistral AI、Perplexity、Pleias和ProRata。它们加入了某中心、某机构等现有合作伙伴的行列。
“在人工智能时代,维基百科及其由人类创建和整理的知识比以往任何时候都更有价值,”基金会在声明中表示。“它的知识驱动着生成式AI聊天机器人、搜索引擎、语音助手等等。维基百科是用于训练大语言模型的最高质量数据集之一。”
该公告是维基百科25周年更新的一部分。这家在线百科全书是全球访问量前十的网站之一,也是其中唯一由非营利组织运营的网站。根据基金会的数据,其超过6500万篇文章以300多种语言发布,每月浏览量近150亿次。
然而,基金会警告称,流量模式正在发生变化。去年10月,它表示维基百科的人类访问量同比下降了8%,并将下降归因于用户依赖AI生成的摘要,而不是直接访问网站。现在,近60%的谷歌搜索在没有点击的情况下结束,其页面内的回应通常由维基百科内容驱动。
AI与出版商的博弈
这些协议是在更广泛的关于AI公司如何获取训练数据的辩论中达成的。大语言模型通常是在大量在线材料上训练的,这种做法遭到了作者、出版商和其他权利持有者的批评,他们认为未经许可使用受版权保护的作品是侵权行为。
其中,Reddit就因使用其内容训练模型而卷入了与多家AI公司的诉讼,尽管它已与某机构等公司达成了许可协议。
近日,主要图书出版商Hachette Book Group和Cengage Group提交动议,要求加入针对某机构的现有集体诉讼,指控该公司为构建其Gemini AI平台而进行了“历史性的版权侵权”。该诉讼指控某机构在AI训练过程中未经适当许可复制了书籍。此案最初于2023年由一组作者提起。
OpenAI也面临类似的诉讼,原告包括《权力的游戏》作者乔治·R·R·马丁。
娱乐公司也在施压。去年12月中旬,迪士尼向某机构发出了停止侵权函,指控其侵犯版权,尽管迪士尼与OpenAI就数百个角色用于AI生成视频达成了单独的许可协议。迪士尼已向其他AI公司发出了类似通知,并与主要制片厂一起对图像生成公司Midjourney提起了诉讼。
同月,一个由作家、演员和技术专家组成的联盟成立了一个新的行业组织,旨在推动制定关于AI在娱乐行业如何训练和使用的可执行标准。超过500位知名人士支持这一倡议。
欧盟委员会也已展开正式的反垄断调查,以审查某机构是否通过未经公平补偿或同意而使用出版商和YouTube内容来驱动其AI服务,从而违反了欧盟竞争规则。
版权持有者最终是否能获得补偿尚不确定。美国联邦法官最近对某中心和Anthropic做出了部分有利的裁决,裁定他们使用受版权保护的书籍训练AI模型构成合理使用,但同时批评这些公司保留了盗版作品的永久库。