GitHub调整策略:决定将用户数据用于AI训练
自4月24日起,除非你选择退出,否则你的数据将被用于训练“章鱼猫”
某机构旗下的GitHub计划从下个月开始使用客户交互数据——特别是“输入、输出、代码片段及相关上下文”——来训练其AI模型。
该代码托管平台修订后的政策适用于Copilot Free、Pro和Pro+用户,自4月24日起生效。Copilot Business和Copilot Enterprise用户因其合同条款而豁免。使用Copilot的学生和教师也将不受影响。
受影响的用户可以根据“既定的行业惯例”选择退出——这意味着按照美国规范,而不是通常要求主动选择加入的欧洲规范。要选择退出,GitHub用户应访问 /settings/copilot/features 并在“隐私”标题下禁用“允许GitHub使用我的数据进行AI模型训练”。
GitHub的首席产品官更希望你不要退出。
他在一篇博客文章中写道:“通过参与,你将帮助我们的模型更好地理解开发工作流程,提供更准确、更安全的代码模式建议,并提高它们在代码进入生产环境前帮助你发现潜在错误的能力。”
为了给其数据收集行为辩解,GitHub在其常见问题解答中指出,某机构、JetBrains及其母公司某机构都实行类似的“选择退出”数据使用政策。
根据产品官的说法,这一变更的理由是交互数据能使公司AI模型表现更好。他声称,添加来自某机构员工的交互数据带来了有意义的改进,例如AI模型建议的接受率提高了。
GitHub想要的数据包括:
- 已被接受或修改的模型输出;
- 模型输入,包括显示的代码片段;
- 光标位置周围的代码上下文;
- 你编写的注释和文档;
- 文件名和仓库结构;
- 与Copilot功能的交互(例如聊天);
- 反馈(例如点赞/点踩评分)。
这一政策转变确实在某种程度上改变了GitHub私有仓库的含义,私有仓库名义上“仅供你、你明确授予访问权限的人以及组织仓库中的某些组织成员访问”。这些或许更准确地应描述为“GitHub私有*仓库”,其中的星号表示GitHub对“私有”一词定义的局限性。
正如常见问题解答中解释的那样:“如果Copilot用户在其设置中启用了基于交互数据进行模型训练,那么当用户在该仓库中活跃使用Copilot时,来自私有仓库的代码片段可以被收集并用于模型训练。”
GitHub社区近期的讨论中对此计划并无太多热情。仅从表情投票来看,用户给出了59个点踩,只有三个火箭表情,这被认为表示某种程度的兴奋。
但在这篇文章提交时发表的39条评论中,除了GitHub开发者关系副总裁之外,实际上没有人真正支持这个想法。
如果GitHub用户认识到OpenAI的Codex——用于GitHub Copilot——是“一个基于GitHub上公开代码微调的GPT语言模型”,用户的愤慨可能会有所缓解。这种表述表明,数据饕餮的AI之马(可以这么说)早已跑出了马厩。此时关门并不能改变这样一个事实:AI行业是建立在未经强烈同意表示就收集的数据之上的。FINISHED