LLM的下一战:从狂卷数据到精算数据
大家好,我是PaperAgent,不是Agent!【AI大模型教程】
大模型竞争的核心,正从比拼数据规模,转向比拼数据的使用效率和风险管理。
今天分享2025两篇最新的论文,刚好把一赛道一次性讲透:
- 《A Survey on Efficient Large Language Model Training: From Data-centric Perspectives》
- 《A Survey on Unlearning in Large Language Models》
一个讲怎么“吃得更少但更好”,另一个讲怎么“消化后还能吐掉有害的”,本质上都是数据管理的精细化。
| 赛道 | 痛点 | 代表技术 |
|---|---|---|
| 高效训练 | 数据太贵、标注太慢、边际收益递减 | 数据价值飞轮 (Data Value Flywheel) |
| 机器遗忘 | 隐私/版权/恶意知识难删除、重训成本爆表 | 机器遗忘 (Machine Unlearning) |
- 高效训练:数据价值飞轮 5 大杀器
图 1:数据价值飞轮——五大模块形成闭环,越转越高效
把数据高效 post-training 拆成 5 个互补模块:
| 模块 | 典型技巧 |
|---|---|
| ① 数据选择 | MoDS、LESS、Agent 投票 |
| ② 质量增强 | 语义重写、毒性控制、分布稳定 |
| ③ 合成数据 | Magpie、SynPO、HARMONIC |
| ④ 蒸馏压缩 | LLMLingua-2、BitDistiller |
| ⑤ 自进化生态 | Self-Rewarding、LLM-as-a-Judge |
1.1 数据选择:把“垃圾数据”拦在门外
数据选择的4个分类
- LESS 用低秩梯度相似度搜“高影响力”样本,只训 5 % 数据就能打平全量。
- Agent 策略:多模型投票,像“数据陪审团”一样筛掉低质量样本。
1.2 合成数据:GPT-4 当“数据印钞机”
- Magpie:不给任何人工 prompt,让 GPT-4 自己吐 instruction-response 对,98 % 可直接用于指令微调。
- HARMONIC:在医疗场景用 LLM 合成表格数据,API 成本 ↓ 70 %。
1.3 自进化生态:模型自己当“数据产品经理”
- Self-Rewarding:模型自己生成新指令 → 自己打分 → 再训自己,三轮后 AlpacaEval 提升 6.7 %。
- LLM-as-a-Judge:让 GPT-4 给答案打分的误差 < 2 %,人类几乎无法区分。
- 机器遗忘:把“不该记住”的知识精准切除
2.1 遗忘三时段
提出全新 三时段分类法:
| 时段 | 思路 | 代表工作 |
|---|---|---|
| 训练时 | SISA 切片+checkpoint | FairSISA |
| 训练后 | 梯度上升/分布对齐/激活扰动 | NPO、RMU、LUNAR |
| 推理时 | 输入提示封装、logit 偏移 | ICUL、δ-Unlearning |
2.2 遗忘三层次
样本级 vs 实体级忘却示例
- 样本级:删除某段隐私文本(如“张三的地址”)。
- 实体级:删除与“哈利·波特”有关的所有知识。
- 能力级:让模型“忘记”如何生成恶意代码。
2.3 评价指标全景
评估框架:数据+指标
| 维度 | 常用指标 | 一句话说明 |
|---|---|---|
| 忘却成功率 | Truth Ratio↓、Exposure↓ | 越低越好 |
| 模型效用 | MMLU、ARC、GSM8K | 越高越好 |
| 鲁棒性 | Relearning、Jailbreak、MIA | 越难恢复越好 |
| 效率 | GPU Hours、FLOPs | 越低越好 |
```plaintext
arxiv.org/abs/2510.25…