BeyondWeb:万亿级预训练中合成数据规模化的经验与实践
一、论文核心信息概览
1. 基础信息
- 论文标题:BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining(BeyondWeb:万亿级预训练中合成数据规模化的经验总结)
- 研究机构:DatologyAI Team
- 论文地址:arxiv.org/pdf/2508.10…
- 核心定位:聚焦大语言模型(LLM)预训练的“数据墙”问题,提出高质量合成数据生成框架BeyondWeb,系统探索合成数据质量的关键影响因素
2. Highlight/重要结论
-
突破数据墙限制:传统网页数据预训练在万亿token规模后会遭遇“数据墙”(高质量信息密度数据稀缺,收益递减),而BeyondWeb通过精心设计的合成数据,可突破此限制——3B参数模型在BeyondWeb上训练180B token,性能超过8B参数模型在Cosmopedia(主流合成数据集)上同token预算的训练效果。
-
性能全面领先:在14个基准任务的平均准确率上,BeyondWeb显著超越现有主流合成数据集:较Cosmopedia最高提升5.1个百分点(pp),较Nemotron-CC的高质量子集Nemotron-Synth最高提升2.6pp;在8B模型上,较开源网页数据RedPajama训练速度提升7.7倍,较Nemotron-Synth提升2.7倍。
-
合成数据的3个核心原则:
- 优先重写高质量种子数据(而非低质量数据),质量比“知识新颖性”更重要;
- 需匹配下游使用场景的“风格分布”(如对话式内容,网页中仅占2.7%-3.67%,但却是LLM主要应用场景);
- 生成策略需保持多样性,避免单一风格导致的性能饱和,尤其在万亿token规模训练中。
-
重写模型的灵活性:
- 重写模型“家族无关”:不同模型家族(OLMo、Phi、Mistral、Llama)生成的合成数据质量差异小于1pp,且模型本身的基准准确率与合成数据质量无正相关;
- 重写模型“规模饱和”:3B参数模型是性能拐点,8B模型较3B仅提升0.4pp,说明无需超大模型即可生成高质量合成数据,降低计算成本。
-
无“银弹”,需多因素优化:高质量合成数据生成无单一解决方案,需联合优化数据选择、生成方法、多样性保持、质量控制等多因素;朴素合成方法(如简单续写)收益有限且成本高,而BeyondWeb通过系统性设计实现“变革性提升”。
二、引言:LLM预训练的“数据墙”与合成数据的崛起
1. 研究背景:从“规模驱动”到“数据墙”
在2024年之前,LLM的突破遵循“简单配方”:模型规模指数级扩大 + 网页爬取数据量指数级增加。例如,从GPT-3(175B参数,400B token)到后续模型,参数和数据量持续翻倍,性能随之提升。
但当数据规模达到万亿token后,领域遭遇核心瓶颈——数据墙(Data Wall) :
- 高质量、高信息密度的网页数据变得“极度稀缺”;
- 继续爬取更多网页数据,模型性能提升的“边际收益急剧递减”(例如,增加100B token数据,准确率仅提升0.1-0.2pp);
- 重复使用现有数据会导致过拟合,进一步降低训练效率。
为突破数据墙,合成数据(Synthetic Data) 成为核心方向——通过LLM生成数据用于预训练,补充稀缺的高质量网页数据。
2. 合成数据的两大范式:现状与不足
当前合成数据生成主要分为两类范式(生成器驱动范式、源重写范式),但均存在关键局限:
(1)生成器驱动范式(Generator-Driven Paradigm):从无到有造知识
-
核心逻辑:用超大模型(如GPT-4、Mixtral-8x7B)作为“知识源”,基于种子主题(如“牛顿运动定律”)生成全新训练数据(如教科书、故事),本质是“将生成器的知识蒸馏到数据中”。
-
代表工作:
- Tiny Stories:用GPT-4生成简化叙事文本,首次实现“小模型(如12M参数)从零训练出连贯英语能力”;
- Phi系列:2B以下参数模型,结合合成数据与原始网页数据训练,性能超过10倍规模的基线模型;
- Cosmopedia:开源合成数据集(v2含27B token),用Mixtral-8x7B基于网页衍生的种子主题生成教科书、博客等内容。
-
核心不足:
- 成本极高:依赖GPT-4、Mixtral等超大模型,生成1B token的计算成本是源重写范式的10-100倍;
- 模型崩溃(Model Collapse):生成数据继承生成器的知识偏见和 hallucination,且多样性有限,训练多代后性能退化;
- 可扩展性差:生成大规模数据(如万亿token)时,种子主题设计和生成效率难以兼顾。
(2)源重写范式(Source Rephrasing Paradigm):优化现有知识
-
核心逻辑:不依赖超大模型造知识,而是用小模型(如Llama-3.1-8B)将现有网页数据重写成“更高质量、更贴合下游任务”的格式(如Q&A、教学文本、逻辑推理题),本质是“提升现有数据的信息密度和适用性”。
-
代表工作:
- WRAP:首次提出“网页重写增强预训练”,将网页文本转成Q&A格式,预训练速度提升3倍;
- Nemotron-CC:NVIDIA的大规模合成数据集,其高质量子集Nemotron-Synth通过“分类器筛选高质量网页+多风格重写”生成,含1.5T token;
- 工业界认可:2025年主流LLM(Kimi K2、Qwen-2.5、Grok-3.5、GPT-5)均采用该范式,成为合成数据的“主导方案”。
-
核心优势:
- 成本低:小模型重写的计算成本仅为生成器驱动的1/10以下;
- 多样性高:基于网页数据的广度,重写后保留自然知识分布,避免模型崩溃;
- 适用性强:可针对性生成下游场景需要的格式(如对话、指令),弥补网页数据的风格缺口。
3. 本文核心问题与贡献
(1)待解决的关键问题
尽管合成数据已被验证有效,但领域仍缺乏系统性科学认知:
- 合成数据的收益来源是什么?是信息密度提升,还是知识蒸馏?
- 如何设计合成数据才能突破“数据墙”?朴素方法(如续写)是否足够?
- 重写时“该选什么数据”“用什么方法重写”“选什么模型重写”?
- 模型规模和家族对合成数据质量的影响如何?
(2)本文核心贡献
- 提出BeyondWeb框架:基于源重写范式,通过“目标导向文档重写”生成高多样性、高信息密度的合成数据,建立预训练“准确率-效率”的新帕累托前沿;
- 系统性实验验证:在1B、3B、8B参数模型上,跨14个基准任务验证BeyondWeb的性能优势,量化训练速度提升;
- 7个关键发现:通过控制变量实验,揭示合成数据质量的核心影响因素(如种子数据质量、风格匹配、多样性),为合成数据生成提供“可落地的指导原则”;
- 工业界验证:BeyondWeb是ArceeAI的AFM-4.5B模型(7T token预训练)的核心数据组件,证明其在生产级预训练中的有效性。
三、BeyondWeb:技术方案详解
1. 设计理念:填补网页数据的“三重缺口”
BeyondWeb的核心目标是“让合成数据既保留网页的广度,又弥补其质量、风格、信息密度的缺口”,具体针对网页数据的三大局限:
- 质量缺口:网页数据中低质量内容(如广告、重复文本)占比高,直接训练效率低;
- 风格缺口:网页以博客、新闻、产品页为主(占比超90%),而LLM主要应用于对话、指令场景(网页中仅占2.7%-3.67%);
- 信息密度缺口:网页文本冗长,多冗余信息,每token的“有用知识量”低。
基于此,BeyondWeb的设计理念可概括为: “高质量种子筛选 + 多维度重写增强 + 多样性控制” 。
2. 核心生成策略:三大重写技术
BeyondWeb不依赖单一重写方法,而是通过三种互补策略提升数据质量,确保多样性:
| 重写策略 | 核心目标 | 具体示例 |
|---|---|---|
| 格式转换(Format Transformation) | 提升任务对齐性 | 将科普文章转成“Q&A对”(如“问:牛顿第一定律是什么?答:……”)、将说明文转成“多选题”(如“以下属于力的单位的是?A. 千克 B. 牛顿……”) |
| 风格修改(Style Modification) | 弥补风格缺口 | 将学术论文的“严谨语气”改成“教学语气”(如“为了验证假设,我们进行了实验”→“我们可以通过以下实验理解这个假设:第一步……”)、将单句文本扩展为“多轮对话”(如“用户:什么是光合作用?助手:……用户:它的关键步骤有哪些?助手:……”) |
| 内容重组(Content Restructuring) | 提升信息密度 | 将冗长的网页文本“结构化总结”(如将500字的“机器学习流程”总结为“数据收集→预处理→模型训练→评估”的步骤化文本)、删除冗余信息(如广告、无关举例),保留核心知识 |
3. 数据集对比:与基线的详细差异
为验证BeyondWeb的优势,论文选择4类代表性数据集作为基线,确保对比的公平性:
| 数据集类型 | 名称 | 来源与特点 | 规模 | 处理方式 |
|---|---|---|---|---|
| 非合成基线 | RedPajama(RPJ) | 开源网页数据集(Weber et al., 2024),无额外筛选,代表“原始网页数据” | 约1.2T token | 直接使用,作为最基础的性能基准 |
| 生成器驱动合成基线 | Cosmopedia-v2 | Mixtral-8x7B-Instruct生成,基于网页衍生的种子主题(如“数学分析”“历史事件”),含教科书、博客、故事 | 27B token | 实验中若需更多token,重复使用(模拟生成器驱动的“数据稀缺”问题) |
| 源重写合成基线1 | QA WRAP | 基于RedPajama,用Llama-3.1-8B-Instruct重写成Q&A格式(WRAP范式的核心风格) | 随实验需求生成(10B-180B token) | 保持“50%原始RedPajama + 50% QA WRAP”的混合比例,控制知识量 |
| 源重写合成基线2 | Nemotron-Synth | Nemotron-CC的高质量子集,基于“分类器筛选的高质量网页”,用多风格重写(Q&A、MCQ、逻辑题等) | 1.5T token | 实验中随机采样,保持各子数据集比例不变,避免抽样偏差 |
| 本文方法 | BeyondWeb | 基于DCLM数据集(Li et al., 2024a)的高质量子集(用DatologyAI的筛选方法挑选),采用“格式转换+风格修改+内容重组”三重策略重写 | 随实验需求生成(10B-180B token) | 混合比例与基线一致(如50%原始高质量网页 + 50% BeyondWeb),确保变量唯一 |
4. 训练设置:细节与可复现性
为确保实验结果的可靠性,论文对训练过程进行严格控制,关键参数如下:
(1)模型配置
| 模型规模 | 参数数量 | 架构 | 训练token预算 | 核心用途 |
|---|---|---|---|---|
| 小模型 | 1B | LLAMA-3.2 | 1万亿(1T)token | 验证“超大规模训练下的合成数据稳定性”(超过Chinchilla最优计算量50倍) |
| 中模型 | 3B | LLAMA-3.2 | 1800亿(180B)token | 验证“参数规模与合成数据的协同效应”(对比8B模型) |
| 大模型 | 8B | LLAMA-3.1 | 1800亿(180B)token | 验证“工业级模型的性能与效率”(主流开源模型规模) |
(2)训练超参数
| 超参数 | 取值 | 说明 |
|---|---|---|
| 优化器 | AdamW | LLM预训练的标准优化器,平衡收敛速度与稳定性 |
| 动量参数 | β₁=0.9,β₂=0.95 | 参考LLAMA系列的默认配置,避免梯度震荡 |
| 学习率 | 5e-4 | 早期在RedPajama上进行搜索,确定最优初始学习率 |
| 权重衰减 | 1e-7 | 轻微正则化,避免过拟合(尤其合成数据训练) |
| 预热步数 | 1B模型:4K步;3B/8B模型:16K步 | 小模型参数少,预热快;大模型需更长预热避免初期训练不稳定 |
| 并行策略 | 完全分片数据并行(FSDP) | 适合大模型训练,降低显存占用 |
| 批大小(Batch Size) | 512(序列长度2048) | 平衡训练效率与显存限制,确保每个批次的统计有效性 |
| 上下文长度 | 2048 | 主流LLM预训练配置,覆盖多数文本场景 |
(3)评估设置
-
评估任务集:14个主流基准任务,覆盖知识问答、常识推理、阅读理解、数学能力等,确保评估的全面性:
- 知识类:ARC-Challenge(科学知识)、ARC-Easy(基础科学)、OpenBookQA(科学事实)、SciQ(科学问答);
- 推理类:COPA(因果推理)、CommonsenseQA(常识推理)、SIQA(社交常识)、WinoGrande(指代消解);
- 阅读理解类:RACE-H(高中英语阅读)、RACE-M(初中英语阅读)、BoolQ(yes/no问答);
- 综合能力类:HellaSwag(场景续写)、MMLU(57科综合知识)、PIQA(物理常识)。
-
评估方式:
- prompt设置:0-shot(无示例)和5-shot(5个示例),取两者平均作为最终分数;
- 多选题评分:采用“Cloze Form(CF)”方法,即仅计算模型对“正确选项”的概率占比,避免随机猜测的干扰;
- 分数计算:14个任务的准确率取平均,作为“平均准确率(Average Accuracy)”,统一衡量模型性能。
5. BeyondWeb的核心性能:数据与解读
(1)跨规模性能优势
在1B、3B、8B模型上,BeyondWeb均实现“显著且稳定的性能提升”,且优势随模型规模扩大而保持:
| 模型规模 | 数据集 | 平均准确率(14任务,0-shot+5-shot) | 较RedPajama提升 | 较Nemotron-Synth提升 |
|---|---|---|---|---|
| 1B(1T token) | RedPajama | 50.7% | - | - |
| 1B(1T token) | Cosmopedia | 52.2% | +1.5pp | -2.1pp |
| 1B(1T token) | Nemotron-Synth | 54.3% | +3.6pp | - |
| 1B(1T token) | BeyondWeb | 57.4% | +6.7pp | +3.1pp |
| 3B(180B token) | RedPajama | 53.5% | - | - |
| 3B(180B token) | Cosmopedia | 55.8% | +2.3pp | -3.0pp |
| 3B(180B token) | Nemotron-Synth | 58.8% | +5.3pp | - |
| 3B(180B token) | BeyondWeb | 60.8% | +7.3pp | +2.0pp |
| 8B(180B token) | RedPajama | 56.6% | - | - |
| 8B(180B token) | Cosmopedia | 58.6% | +2.0pp | -2.5pp |
| 8B(180B token) | Nemotron-Synth | 61.1% | +4.5pp | - |
| 8B(180B token) | BeyondWeb | 63.7% | +7.1pp | +2.6pp |
关键解读:
- 3B模型的“越级性能”:BeyondWeb训练的3B模型(60.8%)超过所有8B基线模型(除Nemotron-Synth的61.1%外),且差距仅0.3pp;而Cosmopedia的8B模型仅58.6%,证明“高质量合成数据可替代部分模型参数”,降低计算成本。
- 跨任务一致性:在14个任务中,BeyondWeb在1B模型上最优13个,3B模型上最优12个,8B模型上最优13个(表1),说明收益不是来自“特定任务过拟合”,而是“通用能力提升”。
(2)训练效率提升
BeyondWeb不仅提升准确率,还大幅加快训练收敛速度(“达到相同准确率所需的token数更少”):
- 8B模型达到RedPajama(180B token)的准确率,仅需23.2B token → 7.7倍速度提升;
- 8B模型达到Nemotron-Synth(180B token)的准确率,仅需66.2B token → 2.7倍速度提升。
效率价值:
- 成本降低:按GPU小时计算,7.7倍速度提升意味着训练成本降低至1/7.7;
- 迭代加速:研究团队可在相同时间内完成更多实验(如模型架构调整、超参数搜索);
- 民主化:中小机构无需“万亿token预算”,即可训练高性能模型(如用23.2B token达到RedPajama 180B的效果)。
(3)帕累托前沿的突破
在“准确率-训练token”的权衡中,BeyondWeb建立了新的帕累托前沿——即“相同token下准确率更高,相同准确率下token更少”:
- 例如,3B模型训练180B token,BeyondWeb准确率60.8%,而Cosmopedia的8B模型训练180B token仅58.6%;
- 1B模型训练1T token,BeyondWeb准确率57.4%,而RedPajama的1B模型训练1T token仅50.7%,差距达6.7pp。
这一突破挑战了“模型规模越大越好”的传统认知,证明“数据质量”可成为与“模型规模”同等重要的性能驱动因素。
四、系统评估:7个关键研究问题的深度解析
为揭示合成数据质量的核心影响因素,论文设计了7个控制变量实验(RQ1-RQ7),均基于1B参数模型(Llama-3.2-1B),训练20B token(10B原始网页数据 + 10B合成数据),确保“知识量固定”,仅改变合成数据的生成方式。
1. RQ1:生成器驱动方法的收益,能否被“简单摘要”替代?
(1)研究问题
生成器驱动范式(如Cosmopedia)的性能优势,是来自“复杂知识蒸馏”(生成器的知识注入),还是“信息密度提升”(将冗余文本压缩)?若仅通过“简单摘要”提升信息密度,能否达到生成器驱动的效果?
(2)实验设计
-
变量定义:
- 生成器驱动组:Cosmopedia(Mixtral-8x7B-Instruct生成,基于种子主题,复杂生成逻辑);
- 摘要组:用Llama-3.1-8B,通过“简单摘要prompt”重写10B高质量网页数据,prompt为:“Summarize the following text. Directly start with the summary. Do not say anything else.”(直接总结文本,不额外输出);
- 基线组:RedPajama-HQ(10B高质量网页数据重复两次,即2x Repeat,控制知识量)。
-
控制变量:合成数据量均为10B token,原始数据量均为10B token,确保知识总量一致。
(3)实验结果
| 方法 | 平均准确率 | 较基线(RPJ-HQ 45.5%)提升 |
|---|---|---|
| RedPajama-HQ(基线) | 45.5% | - |
| 摘要组(简单总结) | 46.7% | +1.2pp |
| Cosmopedia(生成器驱动) | 47.1% | +1.6pp |
| BeyondWeb | 50.4% | +4.9pp |
(4)关键结论
- 生成器驱动的核心收益是信息密度:简单摘要(46.7%)与Cosmopedia(47.1%)性能几乎持平,差距仅0.4pp,说明Cosmopedia的优势并非来自“复杂知识蒸馏”,而是“将冗余文本压缩,提升每token信息密度”;
- 摘要≠最优解:BeyondWeb(50.4%)显著超越摘要组(+3.7pp),证明“仅提升信息密度不够”,还需结合风格匹配、多样性等因素;
- 源重写的成本优势:摘要组用1个8B模型,成本仅为Cosmopedia(8x7B模型)的1/8,却达到相近性能,说明源重写范式的“成本-收益比”更优。
2. RQ2:合成数据能否突破“数据墙”?朴素方法(如续写)足够吗?
(1)研究问题
当高质量网页数据稀缺时(如仅能获取10B token),合成数据能否突破“重复数据的性能上限”(数据墙)?朴素的合成方法(如“续写现有文本”)是否有效?
(2)实验设计
-
变量定义:
- 上限组(Full Data):20B unique高质量网页数据(无重复,代表“无数据墙时的性能上限”);
- 下限组(2x Repeat):10B高质量网页数据重复两次(代表“数据墙下的朴素解决方案”);
- 续写组(Continuation):10B高质量网页数据 + 10B“模型续写”数据,用Llama-3.1-8B续写,prompt为:“Continue the following text in the same style as the original.”(按原风格续写);
- BeyondWeb组:10B高质量网页数据 + 10B BeyondWeb合成数据。
-
关键控制:续写时用“网页文本的后半段”作为输入(避免生成器“记忆”完整文本,导致“作弊”),确保续写内容是“真实合成”而非“复现原始数据”。
(3)实验结果
| 方法 | 平均准确率 | 关键观察 |
|---|---|---|
| 2x Repeat(下限) | 45.5% | 重复数据导致性能下降,较上限组低0.7pp |
| Full Data(上限) | 46.2% | 代表自然网页数据的性能天花板 |
| 续写组(朴素合成) | 46.2% | 与上限组持平,但未突破,仅“弥补重复的损失” |
| BeyondWeb | 50.4% | 突破上限组4.2pp,证明“精心设计的合成数据可突破数据墙” |
(4)关键结论
- 重复数据有害:2x Repeat较Full Data低0.7pp,验证了“重复导致过拟合,性能退化”(Muennighoff et al., 2023);
- 朴素合成无效:续写仅能“抵消重复的损失”,无法突破数据墙,因为续写内容仍基于原始网页的风格和知识,未填补缺口;
- 突破数据墙的关键是“缺口填补” :BeyondWeb通过风格修改(如增加对话内容)、信息密度提升(如重组结构),填补了网页数据的固有缺口,因此能超越自然数据的性能上限。
3. RQ3:重写的“种子数据质量”,比“知识新颖性”更重要吗?
(1)研究问题
当高质量数据稀缺时,是“重写高质量数据(可能重复知识)”更好,还是“重写低质量数据(知识新颖但质量低)”更好?即“种子数据质量”与“知识新颖性”的优先级如何?
(2)实验设计
-
变量定义:
- 高质量种子组(HQ Synth + HQ Web):10B高质量网页数据(HQ Web)+ 10B“重写高质量网页的合成数据”(HQ Synth),知识存在重复;
- 低质量种子组(LQ Synth + HQ Web):10B高质量网页数据(HQ Web)+ 10B“重写低质量网页的合成数据”(LQ Synth),知识更新颖;
- 基线组(LQ Web + HQ Web):10B高质量网页数据 + 10B低质量网页数据(无重写),代表“原始数据的质量混合”。
-
数据筛选:
- HQ Web:RedPajama的高质量子集(DatologyAI et al., 2024筛选,基于文本长度、可读性、冗余度);
- LQ Web:RedPajama的随机样本(含广告、重复文本、低可读性内容)。
(3)实验结果
| 方法 | 平均准确率 | 较基线(45.6%)提升 |
|---|---|---|
| 基线组(LQ Web + HQ Web) | 45.6% | - |
| 低质量种子组(LQ Synth + HQ Web) | 48.6% | +3.0pp |
| 高质量种子组(HQ Synth + HQ Web) | 49.2% | +3.6pp |
| BeyondWeb | 50.4% | +4.8pp |
(4)关键结论
- 种子质量优先于知识新颖性:高质量种子组(49.2%)优于低质量种子组(48.6%),说明“重写高质量数据,即使知识重复,也比重写低质量数据的新颖知识更有效”;
- 质量提升的叠加效应:低质量种子组(LQ Synth + HQ Web)较基线(LQ Web + HQ Web)提升3.0pp,证明“即使种子质量低,重写也能提升数据质量”;
- 高质量种子≠终点:BeyondWeb(50.4%)仍优于高质量种子组,说明“仅用高质量种子重写不够,还需结合多样性、风格匹配等策略”。
4. RQ4:“风格匹配”(生成下游场景需要的风格)对合成数据重要吗?
(1)研究问题
网页数据的风格(如新闻、博客)与LLM的下游场景(如对话、指令)存在巨大差异,若通过合成数据“匹配下游风格”(如增加对话内容),能否提升模型性能?提升幅度是否随风格比例增加而线性增长?
(2)实验设计
-
第一步:量化网页数据的风格缺口:
- 采样10k RedPajama样本,用GPT-4o标注“对话式内容”(定义为“有问有答、多轮交互”,如客服对话、Q&A论坛);
- 结果:网页数据中对话式内容仅占2.7% (后续用Organize the Web过滤器验证,RedPajama中为3.67%),而LLM的核心应用场景(如ChatGPT、客服机器人)均为对话式,缺口显著。
-
第二步:控制风格比例,测试性能:
- 从RedPajama中筛选4类对话式内容:Audio Transcript(音频转录)、Customer Support(客服)、FAQ(常见问题)、Q&A Forum(问答论坛);
- 构建4组训练数据,对话式内容比例分别为3.67%(基线,RedPajama随机样本)、10%、20%、50%,保持总token数20B;
- 评估方式:仅测5-shot性能(对话场景更依赖少样本能力)。
(3)实验结果
| 对话式内容比例 | 5-shot平均准确率 | 较基线(3.67%)提升 |
|---|---|---|
| 3.67%(基线) | 43.2% | - |
| 10% | 43.5% | +0.3pp |
| 20% | 44.0% | +0.8pp |
| 50% | 44.1% | +0.9pp |
(4)关键结论
- 风格匹配有正向作用:对话比例从3.67%提升到50%,准确率提升0.9pp,证明“匹配下游风格能提升性能”;
- 增益快速饱和:20%到50%的对话比例,准确率仅提升0.1pp,说明“风格匹配的收益不是线性的”——当风格比例达到20%时,模型已基本掌握对话式交互的核心模式,继续增加比例无显著收益;
- 风格匹配≠充分条件:即使50%对话比例,准确率仅44.1%,远低于BeyondWeb(50.4%),证明“仅靠风格匹配无法实现高性能,需与其他策略结合”。
5. RQ5:在万亿token规模训练中,“生成策略多样性”有多重要?
(1)研究问题
当合成数据规模扩大到“万亿token”时,单一生成策略(如仅生成Q&A)是否会导致“性能饱和”(模型学完该策略的所有模式后,再增加token无收益)?而多样性策略(如同时生成Q&A、对话、指令)能否持续带来收益?
(2)实验设计
-
变量定义:选择4种代表性生成策略,对比其在“超大规模训练”中的性能趋势:
- 单一策略1:Cosmopedia(仅生成“教科书风格”文本,生成器驱动,风格固定);
- 单一策略2:QA WRAP(仅生成“Q&A风格”文本,源重写,格式固定);
- 多样策略1:Nemotron-Synth(生成Q&A、MCQ、逻辑题等多种格式,源重写,中等多样性);
- 多样策略2:BeyondWeb(生成Q&A、对话、指令、结构化总结等,源重写,高多样性);
-
训练规模:1B模型训练1T token(超Chinchilla最优计算量50倍)、3B模型训练180B token、8B模型训练180B token,观察“性能-训练token”的曲线斜率(斜率为正表示持续收益)。
(3)实验结果
| 生成策略 | 1B模型(1T token)性能趋势 | 3B模型(180B token)性能趋势 | 8B模型(180B token)性能趋势 |
|---|---|---|---|
| Cosmopedia(单一) | 训练500B token后斜率趋近0(饱和),后期过拟合 | 训练100B token后斜率下降 | 训练80B token后斜率趋近0 |
| QA WRAP(单一) | 训练600B token后斜率趋近0 | 训练120B token后斜率下降 | 训练100B token后斜率趋近0 |
| Nemotron-Synth(中等多样) | 训练800B token后斜率下降 | 训练150B token后斜率下降 | 训练130B token后斜率下降 |
| BeyondWeb(高多样) | 训练1T token后斜率仍为正(持续收益),无过拟合 | 训练180B token后斜率保持正 | 训练180B token后斜率保持正 |
(4)关键结论
- 单一策略必然饱和:Cosmopedia和QA WRAP在所有模型规模下均会“性能饱和”——模型快速学会单一风格/格式的模式,再增加token无法获取新信息,甚至过拟合;
- 多样性延缓饱和:Nemotron-Synth(中等多样)的饱和时间晚于单一策略,证明“多样性能延长收益周期”;
- 高多样性实现持续学习:BeyondWeb在1B模型训练1T token后仍保持正斜率,且无过拟合,说明“高多样性是万亿级合成数据训练的核心需求”——只有不断提供新风格、新格式的 data,模型才能持续学习。
6. RQ6:重写模型的“家族”(如Llama、Mistral)对合成数据质量影响大吗?
(1)研究问题
源重写范式依赖“重写模型”将网页数据转成高质量格式,那么“重写模型的家族”是否会显著影响合成数据质量?例如,是否只有Mistral、Llama等主流模型才能生成高质量数据?
(2)实验设计
-
变量定义:选择4个不同家族的重写模型,均用相同的“多风格重写prompt”(覆盖Q&A、对话、总结)生成10B合成数据:
- OLMo-2-7B(AllenAI,开源模型,基准准确率59.6%);
- Phi-4-14B(Microsoft,小参数大性能,基准准确率66.6%);
- Mistral-7B-v0.3(Mistral AI,主流开源模型,基准准确率66.0%);
- Llama-3.1-8B(Meta,主流开源模型,基准准确率61.2%);
-
控制变量:prompt完全相同,合成数据量均为10B,原始数据均为10B高质量网页数据,仅改变重写模型家族。
(3)实验结果
| 重写模型 | 重写模型基准准确率 | 合成数据训练后的平均准确率 | 较基线(45.5%)提升 |
|---|---|---|---|
| RedPajama-HQ(基线) | - | 45.5% | - |
| OLMo-2-7B | 59.6%(最低) | 49.9%(最高) | +4.4pp |
| Llama-3.1-8B | 61.2% | 49.2% | +3.7pp |
| Phi-4-14B | 66.6%(最高) | 49.0% | +3.5pp |
| Mistral-7B-v0.3 | 66.0% | 48.9%(最低) | +3.4pp |
(4)关键结论
- 模型家族影响极小:4个模型生成的合成数据质量差异小于1pp(48.9%-49.9%),且均显著优于基线,证明“重写是模型的通用能力,不依赖特定家族”;
- 重写模型的基准准确率与合成数据质量无正相关:OLMo-2-7B的基准准确率最低(59.6%),但生成的合成数据质量最高(49.9%);Phi-4-14B基准准确率最高(66.6%),合成数据质量却仅49.0%,说明“模型的通用语言能力≠重写能力”;
- 开源模型的可行性:所有模型均为开源或可商用,证明“无需依赖闭源大模型(如GPT-4),即可构建高性能合成数据 pipeline”,降低行业门槛。
7. RQ7:重写模型的“规模”(参数数量)对合成数据质量影响大吗?
(1)研究问题
重写模型的规模是否越大越好?小模型(如1B参数)能否生成高质量合成数据?是否存在“性能拐点”——超过该规模后,模型规模扩大对合成数据质量的提升可忽略?
(2)实验设计
-
变量定义:选择同一模型家族(Llama-3)的不同规模模型,用相同的“多风格重写prompt”生成10B合成数据:
- Llama-3.2-1B(1B参数);
- Llama-3.2-3B(3B参数);
- Llama-3.1-8B(8B参数);
-
控制变量:模型家族相同(避免家族差异干扰),prompt相同,合成数据量均为10B,原始数据均为10B高质量网页数据,仅改变重写模型规模。
(3)实验结果
| 重写模型规模 | 合成数据训练后的平均准确率 | 较基线(45.5%)提升 | 规模每增加一级的提升幅度 |
|---|---|---|---|
| RedPajama-HQ(基线) | 45.5% | - | - |
| 1B | 47.3% | +1.8pp | - |
| 3B | 48.8% | +3.3pp | 1B→3B:+1.5pp |
| 8B | 49.2% | +3.7pp | 3B→8B:+0.4pp |
(4)关键结论
- 小模型也能生成高质量合成数据:1B参数模型生成的合成数据较基线提升1.8pp,证明“重写任务无需超大模型,小模型即可胜任”;
- 3B参数是性能拐点:1B→3B提升1.5pp(显著),3B→8B仅提升0.4pp(可忽略),说明“重写任务的复杂度有限,3B模型已能掌握核心重写能力(如格式转换、风格调整),更大规模模型的增益递减”;
- 成本优化空间大:3B模型的计算成本仅为8B模型的1/4(按FLOPs计算),但合成数据质量仅低0.4pp,证明“用3B模型作为重写器,是‘成本-质量’的最优选择”。
五、未来研究方向
基于BeyondWeb的实践和7个关键发现,论文提出4个值得深入探索的方向:
1. 合成数据的“缩放定律”:量化内在重复
- 核心问题:真实网页数据的“重复”是显性的(如相同文本多次出现),可直接统计;但合成数据的“重复”是隐性的(如不同重写模型生成相似的Q&A对,源于模型的参数偏见),无法用传统方法量化。
- 研究目标:建立合成数据的“缩放定律”——即“合成数据量与模型性能的关系”,并提出“内在重复度”的量化指标(如文本相似度分布、知识覆盖度),指导“何时需要停止生成合成数据”。
2. 合成数据生成的“民主化”:最小模型规模探索
- 核心问题:当前发现3B模型是重写的性能拐点,能否进一步降低到1B甚至更小(如700M)?小模型的重写能力是否可通过“特定微调”(如用少量高质量重写数据微调小模型)进一步提升?
- 研究目标:找到“有效重写的最小模型规模”,并开发“低成本微调方法”,让中小机构甚至个人研究者也能生成高质量合成数据,推动LLM预训练的民主化。
3. 合成数据与“人类价值观对齐”:预训练阶段的对齐
- 核心问题:当前LLM的对齐(如安全、无害)主要依赖“预训练后微调”(如RLHF),成本高且易出现“对齐偏移”(预训练的知识与微调的价值观冲突)。合成数据能否在“预训练阶段”就注入人类价值观(如生成“尊重隐私”“拒绝暴力”的文本)?
- 研究目标:设计“价值观导向的合成数据生成方法”,让模型在预训练阶段就学习到对齐行为,减少对后验对齐的依赖,提升对齐的稳定性和效率。
4. 合成数据的“跨领域/跨模态”扩展
- 核心问题:当前合成数据主要基于“网页文本”,能否扩展到“领域特定数据”(如医疗、法律文档)或“跨模态数据”(如文本-图像、文本-音频)?例如,用源重写范式重写医疗论文,生成“医生-患者对话”的合成数据,用于医疗LLM预训练。
- 研究目标:验证源重写范式在非网页、跨模态场景的有效性,突破“领域数据墙”(如医疗领域高质量数据稀缺),推动LLM在垂直领域的应用。
六、结论:高质量合成数据无“银弹”,需系统性设计
1. 核心总结
-
数据墙是可突破的:传统网页数据的预训练收益递减并非“不可逆转”,通过BeyondWeb这样“高质量种子+多维度重写+多样性控制”的合成数据,可突破数据墙,实现“小模型超越大模型”的性能;
-
合成数据的3个核心原则:
- 优先选择高质量种子数据,质量比知识新颖性更重要;
- 匹配下游场景的风格分布,但需注意收益饱和;
- 保持生成策略的多样性,尤其在万亿token规模训练中;
-
重写模型的“低成本化” :重写无需依赖特定家族或超大模型,3B参数的开源模型即可生成高质量数据,大幅降低计算成本;
-
无“银弹”,需多因素优化:高质量合成数据生成是“系统工程”,需联合优化数据选择、生成方法、多样性、质量控制等因素,朴素方法(如续写、单一风格重写)仅能带来有限收益,而系统性设计(如BeyondWeb)可实现变革性提升。
2. 行业启示
- 数据质量将成为LLM竞争的核心:随着模型规模的增长逐渐放缓(8B-70B参数成为主流),“数据质量”将取代“模型规模”,成为LLM性能的关键差异化因素;
- 合成数据将重构LLM预训练流程:未来LLM预训练的流程可能从“爬取网页→过滤→训练”转变为“筛选高质量种子→重写生成合成数据→混合训练”,大幅提升训练效率;
- 中小机构的机遇:合成数据的低成本化(3B模型重写)让中小机构无需“万亿token爬取预算”,即可通过“高质量合成数据”训练高性能模型,打破大型科技公司的垄断。
BeyondWeb的实践证明,LLM预训练已进入“数据精细化时代”——不再是“有多少数据就用多少”,而是“如何用有限的数据生成更有价值的合成数据”。这一方向不仅能提升模型性能,更能推动LLM技术的可持续发展(减少对网页数据的依赖,降低训练成本和能源消耗),为LLM的广泛应用奠定基础。
七、附录关键信息补充
1. 训练细节
- 学习率调度:采用“线性预热+余弦衰减”,预热后学习率按余弦曲线下降,避免训练后期梯度震荡;
- 梯度裁剪:梯度范数裁剪为1.0,防止梯度爆炸;
- 数据加载:采用“动态批处理”(Dynamic Batching),根据序列长度调整批大小,确保每个批次的token数一致(512×2048=1.024M token);
- 硬件环境:实验基于NVIDIA A100 GPU(80GB显存),1B模型用8张GPU,3B模型用16张GPU,8B模型用32张GPU。
2. 14个评估任务详情
| 任务名称 | 任务类型 | 数据规模 | 评估目标 |
|---|---|---|---|
| ARC-Challenge(ARC-C) | 科学知识问答 | 2.59K题 | 小学到高中科学知识,需推理 |
| ARC-Easy(ARC-E) | 基础科学知识 | 7.79K题 | 基础科学事实,难度较低 |
| BoolQ | Yes/No问答 | 15.9K题 | 自然语言生成的事实性问答 |
| COPA | 因果推理 | 1K题 | 给定前提,选择合理的原因/结果 |
| CommonsenseQA(CSQA) | 常识推理 | 12.1K题 | 日常生活中的常识知识 |
| HellaSwag | 场景续写 | 50K题 | 选择符合常识的场景结尾 |
| MMLU | 综合知识 | 14K题(57科) | 数学、历史、法律、医学等综合知识 |
| OpenBookQA(OBQA) | 科学事实 | 5.96K题 | 基于“公开科学知识库”的问答 |
| PIQA | 物理常识 | 20K题 | 日常生活中的物理动作合理性判断 |
| RACE-H | 阅读理解 | 69.4K题 | 中国高中英语阅读理解题 |
| RACE-M | 阅读理解 | 28.3K题 | 中国初中英语阅读理解题 |
| SIQA | 社交常识 | 38K题 | 社交互动中的常识推理 |
| SciQ | 科学问答 | 13.7K题 | 物理、化学、生物的科学问答 |
| WinoGrande | 指代消解 | 44K题 | 解决代词指代歧义,需常识 |