GitHub将用户数据用于AI训练某机构旗下的GitHub计划从4月24日起使用用户交互数据训练AI模型，涉及代码片段、

GitHub调整策略：决定将用户数据用于AI训练

自4月24日起，除非你选择退出，否则你的数据将被用于训练“章鱼猫”

某机构旗下的GitHub计划从下个月开始使用客户交互数据——特别是“输入、输出、代码片段及相关上下文”——来训练其AI模型。

该代码托管平台修订后的政策适用于Copilot Free、Pro和Pro+用户，自4月24日起生效。Copilot Business和Copilot Enterprise用户因其合同条款而豁免。使用Copilot的学生和教师也将不受影响。

受影响的用户可以根据“既定的行业惯例”选择退出——这意味着按照美国规范，而不是通常要求主动选择加入的欧洲规范。要选择退出，GitHub用户应访问 /settings/copilot/features 并在“隐私”标题下禁用“允许GitHub使用我的数据进行AI模型训练”。

GitHub的首席产品官更希望你不要退出。

他在一篇博客文章中写道：“通过参与，你将帮助我们的模型更好地理解开发工作流程，提供更准确、更安全的代码模式建议，并提高它们在代码进入生产环境前帮助你发现潜在错误的能力。”

为了给其数据收集行为辩解，GitHub在其常见问题解答中指出，某机构、JetBrains及其母公司某机构都实行类似的“选择退出”数据使用政策。

根据产品官的说法，这一变更的理由是交互数据能使公司AI模型表现更好。他声称，添加来自某机构员工的交互数据带来了有意义的改进，例如AI模型建议的接受率提高了。

GitHub想要的数据包括：

已被接受或修改的模型输出；
模型输入，包括显示的代码片段；
光标位置周围的代码上下文；
你编写的注释和文档；
文件名和仓库结构；
与Copilot功能的交互（例如聊天）；
反馈（例如点赞/点踩评分）。

这一政策转变确实在某种程度上改变了GitHub私有仓库的含义，私有仓库名义上“仅供你、你明确授予访问权限的人以及组织仓库中的某些组织成员访问”。这些或许更准确地应描述为“GitHub私有*仓库”，其中的星号表示GitHub对“私有”一词定义的局限性。

正如常见问题解答中解释的那样：“如果Copilot用户在其设置中启用了基于交互数据进行模型训练，那么当用户在该仓库中活跃使用Copilot时，来自私有仓库的代码片段可以被收集并用于模型训练。”

GitHub社区近期的讨论中对此计划并无太多热情。仅从表情投票来看，用户给出了59个点踩，只有三个火箭表情，这被认为表示某种程度的兴奋。

但在这篇文章提交时发表的39条评论中，除了GitHub开发者关系副总裁之外，实际上没有人真正支持这个想法。

如果GitHub用户认识到OpenAI的Codex——用于GitHub Copilot——是“一个基于GitHub上公开代码微调的GPT语言模型”，用户的愤慨可能会有所缓解。这种表述表明，数据饕餮的AI之马（可以这么说）早已跑出了马厩。此时关门并不能改变这样一个事实：AI行业是建立在未经强烈同意表示就收集的数据之上的。FINISHED