AI 时代,公司最该担心的不再是代码泄露,而是“文档外流”

33 阅读6分钟

以前我总觉得,公司那些 DLP、内网隔离、USB 封禁挺烦人的,但好歹知道它们在防什么——防我把代码拷走
直到上个月,我用 Claude Code 在家复现了公司一个核心服务的完整功能,全程没复制一行代码
那一刻我才意识到:安全体系的天花板,可能早就被 AI 捅穿了。

一、以前偷代码,得像特工一样

刚入行那会儿,真想搞代码出去,那叫一个费劲。公司布了好几层防线:

  • 内网隔离:Git 只有办公室能连,回家就断
  • 终端管控:USB 口禁用,剪贴板只能在内网用
  • 权限分级:我只能看我负责的模块,订单服务的代码?门都没有
  • 行为审计:谁在几点下载了多少文件,全有日志

那时候想带走项目,得上各种“骚操作”:

  • 手机拍屏幕,一张一张拍,回去手敲
  • 把代码转成图片,混在正常文件里拷走
  • 建个私有仓,一点一点 push
  • 甚至真有前辈手抄过核心算法……

这些操作有一个共同点:目标明确,性质清晰——就是在偷代码。 被抓到就是安全违规,严重的话直接开除+诉讼。没什么好争的。

二、现在,拿走一个项目只需要一份文档

AI 编程工具爆发之后,事情彻底变了。

我不需要代码了。我只需要拿到项目的文档——架构设计图、接口定义、数据模型、业务流程描述。然后回家,打开 Claude Code 或者 Cursor,用文档驱动开发的模式,AI 就能把整个系统给我重新生出来。

我给你说个真事儿(稍微脱敏过):

我在公司维护一个工作流引擎。某天我想试试 AI 的能力,就在公司电脑上把系统的核心状态机描述几个关键 API 的输入输出样例整理成了 8 页文档。没拷贝任何代码文件,纯文本。
晚上回家,我把这 8 页文档丢给 Claude Code,让它“按照这份架构说明,用 Spring Boot 实现一个促销引擎”。
三个小时后,一个能跑起来的原型就出来了。核心流程全对,就差一些边界细节。

你听出来问题了吗?全程没有任何一行公司代码离开内网,但项目的核心能力已经被我在外部完整复现了。

这就是面向文档开发 + AI 生成带来的副作用:文档已经足以替代代码,成为项目复现的核心资产。

三、最麻烦的是:拿文档到底算不算违规?

如果我用 U 盘拷代码,谁都知道是偷。
但我是这么做的:

  • 在公司电脑上阅读文档 → 大脑记住核心结构 → 回家凭记忆口述给 AI

请问:我违规了吗?

3.1. 代码泄露:黑白分明

维度判定
行为拷贝、下载、传输源代码文件
证据代码文件、Git 记录、传输日志
性质明确的安全违规,甚至违法
损害可量化——代码量、商业价值

没什么好争论的。

3.2. 文档外流:一片灰色

但“拿文档”这件事,边界模糊到让人头疼:

  • 文档性质难界定:架构说明是“公司资产”还是“我的个人理解”?我脑子里的东西写下来,算谁的?
  • 获取方式难追踪:我没有拷任何文件,只是“看了”然后“记住了”。DLP 怎么防?
  • 违规性质难认定:我让 AI 帮我分析公司系统架构,这算正常提效,还是信息泄露?
  • 损害程度难量化:没有代码被带走,但项目被复现了。损失按什么算?研发成本?潜在市场份额?

你说我违规了?我没拷代码。
你说我没违规?项目功能被我在外面完整复现了。

这个灰色地带,是目前绝大多数公司安全体系的盲区。

四、公司那套“防代码泄露”的体系,可能要重新想了

传统安全体系的核心假设是:只要代码文件没出去,项目就是安全的。

  • DLP(数据防泄漏) 盯着代码文件的传输
  • 终端管控封 USB、禁截图
  • 内网隔离挡住外网访问
  • 代码水印标记来源

这套逻辑在过去是成立的。因为没有代码,想复现一个复杂系统几乎不可能——除非对方有一个十几人的团队花上大半年。

但 AI 打破了它:

  1. 我不需要代码文件,我只需要理解项目
  2. 我把理解写成文档,或者直接口述给 AI
  3. AI 帮我在外部生成可运行的代码

代码不出门,项目照样可以被完整带走。

这就好比:过去你要偷一座工厂,得把每台机器搬走。现在你只需要偷到设计图纸,AI 就能帮你重建一整条生产线。

五、我的一些不成熟的想法

5.1. 重新定义“核心资产”

以前我们把源代码当命根子。现在可能要把高层架构文档、核心领域模型、关键业务流程的状态机描述也纳入最高密级管理。

这些文档的泄露风险,可能比几万行 CRUD 代码大得多。

5.2. 对“AI 对话”也要有审计意识

我在公司电脑上把架构描述粘贴到 Claude 网页端的那一刻,其实已经完成了“信息外流”。公司有没有能力审计这种操作?我猜大多数公司都没有。

5.3. 法律条款需要更新

劳动合同里的保密条款,通常写的是“不得泄露源代码、技术文档”。但“技术文档”的定义够不够覆盖“我脑子里记住的架构设计”?
靠记忆复述给 AI 算不算泄露? 这个问题在法律上还是一片空白。

5.4. 更根本的:从“防泄露”转向“降价值”

也许未来安全的思路要变了——不再试图堵死所有出口,而是降低单份文档的价值

  • 核心逻辑放到运行时配置中心,静态文档里只有壳
  • 关键规则用内部 DSL 或低代码平台维护,离开内网环境就失效
  • 让 AI 即使拿到完整文档,生成的系统也缺胳膊少腿

总结 / 反思

以前我总觉得,公司的安全措施虽然烦,但至少方向是对的——防代码泄露
现在我发现,AI 把这个方向的基础假设给抽掉了。

代码不再是复现系统的必要条件,文档才是。

而文档的边界、记忆的归属、AI 对话的性质……这些全都在灰色地带里打转。

我们这一代开发者,一边享受着 AI 带来的效率红利,一边也在亲手制造一个前所未有的安全困境。这不是一个技术问题,而是一个制度问题,甚至是一个法律问题。


这篇文章首发于掘金,欢迎讨论。如果你也在思考类似的问题,留言区见。