从 CTGAN、Diffusion、LLM 到数字孪生,为什么越来越多团队真正缺的不是模型,而是可控、可用、可治理的数据工厂
很多人第一次听到“合成数据”,脑子里的第一反应都差不多:
不就是“造点假的数据”吗?
这个理解,不能说全错,但确实太浅了。
因为今天真正有价值的合成数据,压根不是为了“糊弄一下模型”,也不是为了做个 demo 漂亮点。它真正解决的是一个更现实、更硬、更工程化的问题:
真数据越来越难拿、越来越贵、越来越敏感,但业务又越来越需要高质量、可控、可共享、可回放的数据。 这也是为什么 AWS 在 2025 年专门写企业级 synthetic data strategy,NVIDIA 把它放进 physical AI 和仿真流水线里,OpenAI 也在最新 system card 里明确提到会把真实生产数据和 synthetic data 混合使用,用来补那些真实世界里稀少但又必须覆盖的评测场景。
说白了,合成数据这件事火起来,不是因为大家突然迷上了“造假”,而是因为很多团队终于意识到:
未来 AI 系统真正的瓶颈,很可能不是模型本身,而是你有没有能力持续产出“对、稳、够、安全”的数据。 AWS 直接把 synthetic data 定义为由算法生成、而不是从真实观测直接采集的数据;它的核心目标也不是复制原始记录,而是尽量保留真实数据的数学性质、分布关系和任务价值。
一、先把概念掰正:合成数据不是 mock,不等于脱敏,也不自动等于匿名
最朴素的定义是:合成数据是“生成出来”的,不是“直接采集来的”。 但这句话真正重要的地方不在“生成”两个字,而在“为什么生成”。AWS 的定义很清楚:synthetic data 的目标是保留真实数据的统计特征和关系结构,同时避免直接暴露原始观测记录。它还区分了 partial synthetic 和 full synthetic:前者是替换部分敏感字段,后者是整份数据都重新生成。
但这里有个坑,很多人一开始就会踩进去:
合成数据不等于天然匿名。
ICO 对 anonymisation 和 pseudonymisation 的区分非常明确:真正的 anonymisation,是数据已经不能再让个人被识别;而 pseudonymised 或 de-identified data,依然可能通过额外信息重新对应到个人,所以仍然属于需要保护的个人数据。也就是说,你把名字、手机号抹掉,再“合成”一版,并不自动意味着万事大吉。
而且这个问题到 2026 年已经被研究圈说得更狠了。UCL 和 UC Riverside 的研究直接提出:很多 synthetic data 的“匿名性”判断还是停留在“看发布出来的数据集像不像原始记录”,但现实里更危险的是模型本身可以被查询、被交互、被反复探测。这篇工作主张从“model-centric privacy attack perspective”来看问题,并明确指出:单靠 synthetic data techniques 本身,并不能自动保证足够匿名;如果要谈更强的隐私保证,通常还是得把差分隐私和攻击面建模一起算进去。
所以我更愿意把合成数据定义成这样一句话:
它不是“假的数据”,而是一套在真实性、可用性、可控性和隐私之间做工程平衡的数据生成系统。 这也是为什么监管和实践文档都不把 synthetic data 当成“神奇豁免卡”,而是把它当成一种可能的 data minimisation 和 privacy engineering 手段。
二、为什么这两年它突然又热起来了?
不是因为概念更新了,而是因为现实问题更疼了。
第一,真数据越来越难流动。 敏感数据、医疗数据、金融数据、跨组织协作数据,本来就很难共享;AI 上来之后,这个问题只会更严重。ICO 在 AI data minimisation 的实践建议里,已经明确把 synthetic or anonymised information 放进可选方案里,核心逻辑很直接:能少用真个人数据,就尽量少用。
第二,很多模型今天缺的不是“更多普通样本”,而是“更全的稀有场景覆盖”。 OpenAI 在 GPT-5.3-Codex system card 里写得很清楚:评测集会混合 production data 和 synthetic data,因为后者能补足那些真实世界中稀少、但又和安全或策略覆盖强相关的场景。这个信号其实非常值得重视:合成数据已经不只是训练数据的替补,还是评测数据和红队数据的补全器。
第三,物理世界的数据采集太贵了。 在机器人、自动驾驶、工业视觉这些场景里,你真去采长尾数据,成本高得离谱,而且很多极端场景根本等不到。NVIDIA 现在把 synthetic data generation 和 Isaac Sim、Cosmos 放在 physical AI 的核心位置,逻辑很现实:先在可控世界里把长尾和复杂场景造出来,再去缩小 sim-to-real gap。
所以今天再看 synthetic data,它已经不是一条单线赛道了。至少有四种完全不同的需求在推它往前走:
隐私友好的数据共享、长尾样本增强、生产级测试数据替身、以及仿真世界里的数据工厂。
三、从技术上看,合成数据其实不是一条路线,而是四种完全不同的打法
很多文章一聊 synthetic data,就开始罗列一堆模型名字:GAN、VAE、Diffusion、LLM。
看上去很热闹,但其实有点把问题讲反了。
因为合成数据首先不是模型问题,而是数据类型和目标保留问题。
你要生成的是表格?文本?时间序列?多表业务数据?机器人仿真数据?这几件事根本不是一个技术问题。
1)统计规则派:先学分布,再采样
这是最传统、也最容易被低估的一派。
思路很简单:先估计真实数据的统计分布、边缘分布、相关关系,再从这些分布里采样生成新数据。
这套方法在“结构比较清楚、规则比较硬、可解释性要求高”的场景里非常好用,尤其是当你并不追求“像真世界一样复杂”,而是更在意“可控、可解释、能快速生成”。AWS 在 synthetic data 的介绍里就把这种方法明确列为 statistical distribution approach。
它的缺点也很明显:
一旦真实数据里有复杂的高阶关系、离散与连续混合结构、多峰分布、强条件依赖,这类方法就容易失真。也正因为这样,后面深度生成方法才会起来。
2)深度生成派:VAE / GAN / Diffusion 去拟合联合分布
这一派是表格合成数据里最热的主战场。
先说一个很关键的背景:
表格数据比很多人想象的难得多。
TabDDPM 那篇论文开头就说得很到位:tabular data 的异质性非常强,不同列可能完全不是一个“物种”,有连续、有离散、有长尾、有极度不平衡,这使得它比图像、语音这类相对同质的数据更难建模。
早期代表是 CTGAN。它到今天还经常被拿来做基线,不是因为“GAN”这个词听起来酷,而是因为它在工程上正面解决了两个特别现实的问题:连续列的多模态分布,以及离散列的严重类别不平衡。CTGAN 论文明确把这两点作为它的核心动机。
再往后,Diffusion 开始往表格上迁移。TabDDPM 的价值在于,它把 diffusion 这套“逐步去噪还原分布”的思路搬到了混合类型的 tabular 上,并且在多组 benchmark 里显示出比 GAN / VAE 更稳定的表现。至少从现在的公开研究趋势看,Diffusion 在复杂表格生成上已经是一条非常值得认真看待的路线。
3)LLM / Transformer 派:文本和代码很强,表格别想当然
这两年最容易被误解的一件事就是:
LLM 这么强,那 synthetic data 不就直接让大模型生成就完了?
这句话对文本和代码场景,某种程度上还真成立。2025 年关于 LLM synthetic data 的综述总结得很清楚:在 text 和 code 上,LLM 已经形成了一整套成熟方法,包括 prompt-based generation、RAG、self-refinement、execution feedback 等,用来做 instruction tuning、问答增强、代码翻译、bug repair,很有现实价值。
但把这套打法直接搬到表格上,就没那么顺。2024 年那篇题目就很直白的论文《Are LLMs Naturally Good at Synthetic Tabular Data Generation?》结论也一样直白:LLM 不管是直接拿来生成表格,还是做常规 fine-tuning,效果都不够好。 核心原因在于自回归序列机制天然不擅长学习表格里的 functional dependencies、条件混合分布和真实业务约束。
所以我的观点一直很明确:
LLM 是 synthetic data 系统里很好用的部件,但它不该天然被当成表格 synthetic data 的默认终局。 在文本和代码里,它常常是主角;在表格和复杂业务数据里,它往往更适合做辅助生成、规则解释、约束生成、数据增强编排,而不是单枪匹马负责整条流水线。
4)仿真 / 数字孪生派:先造一个世界,再从世界里采数据
这条线和前面几条差别最大。
它不是“从数据学数据”,而是“先把世界参数化、规则化、可控化,再从这个世界里批量采数据”。
在机器人、自动驾驶、工业视觉这类场景里,这是目前最现实的一条路。NVIDIA 对 Isaac Sim 的定位就是 robotics simulation、testing 和 synthetic data generation;而 Cosmos 这条线则更进一步,把 world foundation model、物理仿真和 photorealistic transfer 连到了一起。
这一派最像真正意义上的“数据工厂”。
因为你不是在赌模型能不能从有限样本里自己悟出来,而是在主动控制世界里的光照、天气、视角、材质、遮挡、故障、异常动作和长尾事件。对 physical AI 来说,这种能力不是锦上添花,而是主粮。
四、这个领域真正难的,不是“生成”,而是“生成什么才算对”
第一次做 synthetic data 的团队,最容易犯的一个错误就是把目标定成一句话:
“越像真实数据越好。”
这句话听起来很合理,但放到工程里,基本不够用。
因为“像”至少分成四层。
第一层是字段分布像,比如年龄、金额、类别占比差不多。
第二层是关系像,比如收入和年龄、疾病和检验指标、用户和订单的关联还在。
第三层是结构像,比如多表外键、业务规则、因果结构、事件序列还在。
第四层是任务像,也就是 synthetic data 训练出来的模型,在真实数据上还能不能工作。
而且还有一个反方向的要求:
它不能像到把原始训练样本直接背出来。
这也是为什么 synthetic data 的评测,很多时候比建模本身还容易做错。
现在越来越多研究开始强调,表格数据不能只看 marginal distributions 和 pairwise correlations;TabStruct 这类工作之所以有价值,就是因为它把 structural fidelity 单独拎了出来,提醒大家:很多合成表格“看着像”,但结构上已经歪了。
所以从工程角度,我更建议把评测拆成四个维度:
Fidelity:整体分布像不像。
Utility:对下游任务有没有用。
Privacy / Novelty:是不是新样本,而不是把训练集吐出来。
Structure / Constraints:有没有违反业务规则、关系约束和结构逻辑。
你如果只看第一维,十有八九会被“伪高质量”骗过去。
五、真能落地的工程流程,跟“拿个模型跑一遍”差得很远
如果你让我给一个团队设计 synthetic data pipeline,我一般不会先问“你想用 CTGAN 还是 Diffusion”,而是先问一句:
你到底想保留什么?
因为不同场景,保留目标完全不一样。
用于 QA 和 staging 的数据,最重要的是 schema、关系、边界条件、异常值和典型 bug 场景。
用于训练风控模型的数据,最重要的是少数类、条件分布、时间依赖和标签质量。
用于隐私共享的数据,最重要的是群体统计、关联结构和重识别风险控制。
用于机器人训练的数据,最重要的是物理一致性、场景多样性和长尾覆盖。
第一步:先建 metadata 和 data contract
这一点特别像数据工程,而不像“调个生成模型”。
SDV 的文档对 metadata 的定义就很实用:你要先把表、字段、类型、主键、外键、关系这些东西描述清楚;如果是多表数据,更不能偷懒,因为关系结构本身就是价值的一部分。
第二步:把 deterministic business rules 明确写出来
这一点特别重要。
很多业务规则本来就不该靠生成器自己猜。
SDV 的 constraints 机制讲得非常直接:业务规则是 deterministic 的,默认的 probabilistic synthesizer 不一定能 100% 学会,所以你应该把规则显式输入系统,让 constraint-augmented generation 去保证数据合法。
这句话翻译成人话就是:
别把“订单金额必须大于等于 0”“结束时间必须晚于开始时间”“子表外键必须能在主表里找到”这类事情交给模型碰运气。
第三步:模型选型别迷信一家通吃
如果是小样本、规则强、解释要求高的场景,统计方法、图模型、规则生成可能更合适。
如果是中大型 tabular,CTGAN、TVAE、Diffusion、自回归表格模型都值得做实验,但别默认 LLM 最强。
如果是文本和代码 synthetic data,LLM 往往很值钱。
如果是机器人、自动驾驶、工业视觉,优先考虑仿真与数字孪生,再叠加生成模型去做 photorealism 和 domain randomization。
第四步:隐私保护要前置,不要只放在发布前
这是 synthetic data 最容易自欺欺人的地方。
NIST 在 2025 年发布的 SP 800-226 把话说得很明确:differential privacy 是唯一有严格数学定义的隐私框架。 这并不意味着所有 synthetic data 都必须上 DP,但它至少提醒你一件事:很多“我们做了脱敏、看起来不像原始数据”的说法,本质上只是经验判断,不是形式化保证。
而且现实里,很多系统最危险的往往不是整体分布,而是 rare values、极稀有组合和唯一性记录。MOSTLY AI 的文档里就专门提到 rare category protection,会对极罕见类别做 _RARE_ 替换或保护处理,因为这些 rare values 特别容易带来重识别风险。
第五步:评测一定要上 holdout、下游任务和攻击式检查
光看统计相似度不够。
最起码,你应该有:
- 质量评测:比如分布和关系保真度
- 下游任务评测:比如 TSTR 这种“train on synthetic, test on real”
- 结构与约束评测:比如外键、规则、事件顺序
- 隐私与新颖性评测:比如和训练集的近似度、攻击模拟、敏感记录泄漏风险
如果你少了后两类,基本说明这条流水线还没有真正工程化。
六、哪些场景最值得做?我只说我认为真正值钱的四类
1)测试、QA、staging 数据替身
这可能是最容易被低估、但最容易先看到 ROI 的场景。
很多团队的真实痛点不是“模型没有训练数据”,而是测试环境没有生产级数据。真生产数据不敢直接搬,手写 mock data 又太假,最后边界条件、异常分布、真实关联都没覆盖到,bug 只能等上线以后爆。
在这种场景里,synthetic data 的价值不是“无限拟真”,而是:
保留结构、保留典型关系、保留边界问题,同时尽量减少敏感泄露风险。
这类需求特别适合规则 + metadata + generator + constraints 的组合打法。
2)监管行业的数据共享、分析和建模
医疗、金融、保险、政务这些行业最值钱的不是数据本身,而是“能不能被安全地用”。
AWS 在企业 synthetic data strategy 文章里一直在强调 utility 和 privacy 的平衡;ICO 也把 synthetic or anonymised data 明确放进 AI data minimisation 的实务建议里。这里 synthetic data 真正的价值,不是“天然合规”,而是它提供了一个更适合做治理、更适合做实验、更适合做跨团队协作的中间层。
但这类场景里你一定要克制:
synthetic data 很适合帮助共享和实验,但不能因为“不是原始数据”就自动跳过隐私评估。 这点 NIST 和近年的隐私研究已经说得很清楚。
3)长尾样本增强和类别再平衡
这类场景经常出现在风控、故障检测、网络安全、稀有病、极端事件预测里。
真实数据不是没有,而是你最关心的那一类太少。
这个时候 synthetic data 的价值,通常不是替代全量真实数据,而是补少数类、补边界样本、补罕见组合。AWS 在 2025 年关于 agent-based model 的文章里就给过一个很典型的例子:用 synthetic market data 来增强策略回测能力,本质上就是为了补历史数据难以覆盖的市场情形。
4)仿真驱动的 physical AI
这一类是我最看好的长期方向之一。
原因很简单:机器人、自动驾驶、工业视觉从第一天起就离不开“可控世界”。
NVIDIA 现在的路线非常清晰:Isaac Sim 负责高保真仿真和 synthetic data generation,Cosmos 负责更强的 world modeling 和向真实世界迁移。对这种场景来说,synthetic data 不是“没有真数据时凑一凑”,而是训练、验证、覆盖长尾和做 domain randomization 的核心工具。
七、这个领域现在最大的瓶颈,不在“能不能生成”,而在“生成出来以后怎么不自欺欺人”
我自己看 synthetic data 这几年,最深的一个感受是:
这个方向最危险的地方,从来都不是技术不够炫,而是太容易把“看起来像”误当成“真的有用”。
1)隐私最容易被说过头
到今天还有不少材料会给人一种错觉:synthetic data 天生更安全。
这个说法太粗了。
更准确的说法应该是:
synthetic data 可以成为隐私工程的一部分,但它本身不是自动成立的隐私证明。
NIST 强调 DP 的形式化保证;近期研究又从 model-centric attack 视角提醒大家,数据集层面的“相似度不高”并不足以代表真实世界里就没风险。
2)表格数据比很多人想得更难
图像和文本上的生成成功,很容易让人误以为“表格也差不多”。
但表格的问题本质是结构问题、依赖问题、约束问题。CTGAN 和 TabDDPM 都是在努力逼近这些问题;而 LLM 直接生成表格之所以经常不够理想,恰恰也是因为它对这种结构性约束天生不够友好。
3)评测体系还没完全收敛
Synthetic Data Privacy Metrics 这篇综述就直接指出:现在隐私评测指标非常多,但缺标准化。也就是说,这个领域里“看起来很严谨的评测”不一定真能横向可比。
4)递归使用合成数据,真的可能把模型带偏
这个问题这两年也被讨论得很多。Nature 2024 那篇很出名的工作指出,如果一代又一代模型不断在模型自己生成的数据上训练,可能会出现 model collapse,表现为原始分布尾部信息逐渐丢失,模型对现实的感知越来越偏。
这不意味着 synthetic data 不能用,而是意味着:
它最适合做“增强、补齐、覆盖、对齐”,不适合无节制地变成唯一口粮。
尤其在基础模型训练里,这个边界一定要守住。
八、未来三年,这个方向大概率会怎么演化?
我不太相信 synthetic data 接下来会变成“某一个模型统治一切”的格局。
相反,我更看好它沿着四个方向收敛。
第一,单模型会退,流水线会进
未来真正值钱的,不是“我有个很强的 generator”,而是:
generator + metadata + constraints + privacy layer + evaluator + simulator + release gate
也就是说,synthetic data 会越来越像一个“数据产品流水线”,而不是“一次性产物”。AWS 的企业策略、SDV 的 metadata 和 constraints、OpenAI 在 eval 里混合真实和 synthetic 的做法,实际上都在往这个方向走。
第二,结构感知会越来越重要
表格数据这条线,接下来不会只比“更像”,而会更比“结构是否对”。TabStruct 这样的工作其实已经在打样了:如果未来评测和生成都不把 structural fidelity 单独拿出来,很多结论都会不够稳。
第三,仿真和生成模型会深度融合
physical AI 这条线非常可能成为 synthetic data 的长期大金矿。
仿真器负责物理一致性和 ground truth,生成模型负责 photorealism、多样性、world transfer 和长尾变化。NVIDIA 现在明显就在沿着这条路往前推。
第四,隐私会从“宣传点”变成“验收项”
随着合规和研究都越来越细,synthetic data 的隐私讨论会从“我们这不是原始数据,所以更安全”这种模糊表述,慢慢变成更具体的验收项:
- 有没有形式化保证?
- 有没有 rare value 保护?
- 有没有攻击式评测?
- 有没有模型侧的风险分析?
九、它的商业价值,到底落在哪?
很多人看 synthetic data,容易只盯着“能不能训练更好的模型”。
这当然重要,但我觉得它真正大的商业价值,反而在更基础的地方。
第一,它能降低真实敏感数据的流动成本。
不是让你彻底摆脱真实数据,而是让更多研发、测试、分析、实验活动不必每次都直接碰生产数据。
第二,它能把很多低频、昂贵的数据准备动作,变成高频、工程化的流水线。
这在 QA、回归测试、风险模拟、仿真训练里尤其明显。
第三,它会把“数据治理”从防守型动作,慢慢变成生产型动作。
过去数据治理常常像“别出事”,未来更像“怎么稳定产出可用、安全、可控的数据资产”。这一点在合成数据上体现得特别明显,因为它天然要求版本化、报告化、约束化和评测化。
从这个角度看,synthetic data 不是一个边角方向。
它其实越来越像下一代 AI 数据基础设施的一部分。
结尾:合成数据,不是为了替代真实世界,而是为了把真实世界里最难的那部分工程化
最后我想给一个不那么讨好、但更接近现实的结论。
合成数据不是万能药。
它不能自动解决隐私问题,不能自动保证真实性,也不能神奇地替代真实世界的一切复杂性。NIST、ICO、近两年的隐私研究、以及 model collapse 相关工作,其实都在提醒同一件事:synthetic data 很强,但前提是你把边界想清楚。
但反过来说,它也绝对不只是“造点假数据”这么简单。
它真正的意义在于:
把真实世界里最贵、最慢、最敏感、最稀缺、最难覆盖的那部分数据问题,变成一个可控、可扩、可审计、可迭代的工程系统。
所以如果你现在问我,合成数据到底是什么?
我会说:
它不是一个模型名字,也不是一个概念股。它正在变成一项核心的数据工程能力。
谁能把这件事做成流水线、做成质量体系、做成治理体系,谁拿到的就不只是“更多数据”,而是下一代 AI 系统真正可用的数据底座。