LLM的下一战：从狂卷数据到精算数据

ai大模型分享员

2025-11-06 49 阅读2分钟

LLM的下一战：从狂卷数据到精算数据

大家好，我是PaperAgent，不是Agent！【AI大模型教程】

大模型竞争的核心，正从比拼数据规模，转向比拼数据的使用效率和风险管理。

今天分享2025两篇最新的论文，刚好把一赛道一次性讲透：

《A Survey on Efficient Large Language Model Training: From Data-centric Perspectives》
《A Survey on Unlearning in Large Language Models》

一个讲怎么“吃得更少但更好”，另一个讲怎么“消化后还能吐掉有害的”，本质上都是数据管理的精细化。

赛道	痛点	代表技术
高效训练	数据太贵、标注太慢、边际收益递减	数据价值飞轮（Data Value Flywheel）
机器遗忘	隐私/版权/恶意知识难删除、重训成本爆表	机器遗忘（Machine Unlearning）

高效训练：数据价值飞轮 5 大杀器

图 1：数据价值飞轮——五大模块形成闭环，越转越高效

把数据高效 post-training 拆成 5 个互补模块：

模块	典型技巧
① 数据选择	MoDS、LESS、Agent 投票
② 质量增强	语义重写、毒性控制、分布稳定
③ 合成数据	Magpie、SynPO、HARMONIC
④ 蒸馏压缩	LLMLingua-2、BitDistiller
⑤ 自进化生态	Self-Rewarding、LLM-as-a-Judge

1.1 数据选择：把“垃圾数据”拦在门外

数据选择的4个分类

LESS 用低秩梯度相似度搜“高影响力”样本，只训 5 % 数据就能打平全量。
Agent 策略：多模型投票，像“数据陪审团”一样筛掉低质量样本。

1.2 合成数据：GPT-4 当“数据印钞机”

Magpie：不给任何人工 prompt，让 GPT-4 自己吐 instruction-response 对，98 % 可直接用于指令微调。
HARMONIC：在医疗场景用 LLM 合成表格数据，API 成本 ↓ 70 %。

1.3 自进化生态：模型自己当“数据产品经理”

Self-Rewarding：模型自己生成新指令 → 自己打分 → 再训自己，三轮后 AlpacaEval 提升 6.7 %。
LLM-as-a-Judge：让 GPT-4 给答案打分的误差 < 2 %，人类几乎无法区分。

机器遗忘：把“不该记住”的知识精准切除

2.1 遗忘三时段

提出全新 三时段分类法：

时段	思路	代表工作
训练时	SISA 切片+checkpoint	FairSISA
训练后	梯度上升/分布对齐/激活扰动	NPO、RMU、LUNAR
推理时	输入提示封装、logit 偏移	ICUL、δ-Unlearning

2.2 遗忘三层次

样本级 vs 实体级忘却示例

样本级：删除某段隐私文本（如“张三的地址”）。
实体级：删除与“哈利·波特”有关的所有知识。
能力级：让模型“忘记”如何生成恶意代码。

2.3 评价指标全景

评估框架：数据+指标

维度	常用指标	一句话说明
忘却成功率	Truth Ratio↓、Exposure↓	越低越好
模型效用	MMLU、ARC、GSM8K	越高越好
鲁棒性	Relearning、Jailbreak、MIA	越难恢复越好
效率	GPU Hours、FLOPs	越低越好

```plaintext arxiv.org/abs/2510.25…