LLM的下一战:从狂卷数据到精算数据

49 阅读2分钟

LLM的下一战:从狂卷数据到精算数据

大家好,我是PaperAgent,不是Agent!【AI大模型教程】

大模型竞争的核心,正从比拼数据规模,转向比拼数据的使用效率和风险管理

今天分享2025两篇最新的论文,刚好把一赛道一次性讲透:

  1. 《A Survey on Efficient Large Language Model Training: From Data-centric Perspectives》
  2. 《A Survey on Unlearning in Large Language Models》

一个讲怎么“吃得更少但更好”,另一个讲怎么“消化后还能吐掉有害的”,本质上都是数据管理的精细化

赛道痛点代表技术
高效训练数据太贵、标注太慢、边际收益递减数据价值飞轮 (Data Value Flywheel)
机器遗忘隐私/版权/恶意知识难删除、重训成本爆表机器遗忘 (Machine Unlearning)

  1. 高效训练:数据价值飞轮 5 大杀器

图 1:数据价值飞轮——五大模块形成闭环,越转越高效

把数据高效 post-training 拆成 5 个互补模块:

模块典型技巧
① 数据选择MoDS、LESS、Agent 投票
② 质量增强语义重写、毒性控制、分布稳定
③ 合成数据Magpie、SynPO、HARMONIC
④ 蒸馏压缩LLMLingua-2、BitDistiller
⑤ 自进化生态Self-Rewarding、LLM-as-a-Judge

1.1 数据选择:把“垃圾数据”拦在门外

数据选择的4个分类

  • LESS 用低秩梯度相似度搜“高影响力”样本,只训 5 % 数据就能打平全量。
  • Agent 策略:多模型投票,像“数据陪审团”一样筛掉低质量样本。

1.2 合成数据:GPT-4 当“数据印钞机”

  • Magpie:不给任何人工 prompt,让 GPT-4 自己吐 instruction-response 对,98 % 可直接用于指令微调。
  • HARMONIC:在医疗场景用 LLM 合成表格数据,API 成本 ↓ 70 %。

1.3 自进化生态:模型自己当“数据产品经理”

  • Self-Rewarding:模型自己生成新指令 → 自己打分 → 再训自己,三轮后 AlpacaEval 提升 6.7 %。
  • LLM-as-a-Judge:让 GPT-4 给答案打分的误差 < 2 %,人类几乎无法区分。

  1. 机器遗忘:把“不该记住”的知识精准切除

2.1 遗忘三时段

提出全新 三时段分类法

时段思路代表工作
训练时SISA 切片+checkpointFairSISA
训练后梯度上升/分布对齐/激活扰动NPO、RMU、LUNAR
推理时输入提示封装、logit 偏移ICUL、δ-Unlearning

2.2 遗忘三层次

样本级 vs 实体级忘却示例

  • 样本级:删除某段隐私文本(如“张三的地址”)。
  • 实体级:删除与“哈利·波特”有关的所有知识。
  • 能力级:让模型“忘记”如何生成恶意代码。

2.3 评价指标全景

评估框架:数据+指标

维度常用指标一句话说明
忘却成功率Truth Ratio↓、Exposure↓越低越好
模型效用MMLU、ARC、GSM8K越高越好
鲁棒性Relearning、Jailbreak、MIA越难恢复越好
效率GPU Hours、FLOPs越低越好

```plaintext arxiv.org/abs/2510.25…