AI帮你写的代码,版权算谁的?——一个程序员的版权焦虑发作了
上周review代码时看到一段特别眼熟的函数。一问,同事说是Copilot生成的。
我下意识去GitHub搜了一下——果然,某个star数过万的开源项目里有几乎一模一样的实现。
那个项目用的是GPL协议。我们的项目是商业闭源的。
你品,你细品。
这事儿比你想的严重
先说大背景。AI生成内容的版权归属,2026年终于有了一些阶段性的答案,但不同类型的内容,规则完全不一样。
type ContentType = 'text' | 'image' | 'code'
function getCopyrightRisk(type: ContentType): RiskLevel {
switch (type) {
case 'text':
return 'LOW' // 规则最清晰,保留创作记录即可
case 'image':
return 'MEDIUM' // 中美规则不同,看你的市场在哪
case 'code':
return 'HIGH' // 最混乱,许可证地雷遍地
}
}
逐个说说。
文字:最省心的一类
你用AI写文章,版权归你。前提是你有"独创性贡献"——设计框架、调prompt、修改润色,这些都算。
北京互联网法院已经有判例了,确认了"AI是工具、使用者是创作者"的原则。
注意一个新规:2025年9月起,AI生成内容必须加标识。四部门联合发的,强制执行。
// ✅ 有版权
const article = generateWithAI(detailedPrompt) + humanEditing
// ❌ 版权悬了
const article = generateWithAI("帮我写篇关于XX的文章")
图片:中美玩法不同
中国法院:用AI创作的图片可以有版权。关键是你得证明投入了智力劳动(提示词设计、参数调整、反复迭代)。
美国版权局:纯AI生成的图片没有版权。你输入prompt,Midjourney吐出结果,你"既无法预测也无法控制"——所以你不算作者。
灰色地带:AI出初稿 → 你在PS里大改 → 改的部分有版权,AI原始生成的部分在美国依然不受保护。
代码:Copilot是个定时炸弹
这才是重头戏。
GitHub Copilot训练时用了海量公开代码,遇到了70万+份GPL许可证。但输出时——
input: 你的代码上下文
process: 黑盒推理
output: 代码建议(零来源标注)
你完全不知道建议的代码是"创造"出来的,还是从训练集里"搬"出来的。
你的闭源商业项目
└── module-A
└── copilot_generated_function()
└── 实际来源:某GPL项目的core.py
└── 违反GPL ⚠️ BOOM
2022年的集体诉讼已经提交了证据:Copilot有时会直接输出>150字符的训练集代码,且不带任何版权信息。
训练数据:上游还有一层雷
就算你的输出没问题,AI模型训练时可能已经侵了别人的权。
几个大案:
- • Bartz v. Anthropic:15亿美元和解,部分训练数据获取被认定为"盗版"
- • 小红书Trik AI案:四位插画师起诉AI画图产品用了他们的作品训练
- • Warner Music v. Suno:和解后Suno要推授权数据训练的新模型
启示:选AI工具时看看人家的训练数据来源。上游出了问题,下游(你)也可能被卷进去。
我现在的做法
# 代码相关
1. Copilot建议超过20行的 → 手动搜一下是不是搬运的
2. 关键业务模块 → 自己写,AI建议当参考
3. CI里 → 跑许可证合规扫描
4. 新人入职 → 讲一遍AI代码的版权风险
# 内容相关
1. 保留prompt迭代记录
2. 商用内容做二次加工
3. 加AI生成标识
最后
AI版权这事儿法律还在追技术,很多边界没画清楚。但有一个原则不会过时:
保持审慎,记录过程,遵守规范。
这不是法律洁癖。这是在给未来的自己买保险。
你在用AI写代码时踩过版权的坑吗?评论区聊聊。