BeyondWeb:万亿级预训练中合成数据规模化的经验与实践

179 阅读32分钟

BeyondWeb:万亿级预训练中合成数据规模化的经验与实践

一、论文核心信息概览

1. 基础信息

  • 论文标题:BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining(BeyondWeb:万亿级预训练中合成数据规模化的经验总结)
  • 研究机构:DatologyAI Team
  • 论文地址arxiv.org/pdf/2508.10…
  • 核心定位:聚焦大语言模型(LLM)预训练的“数据墙”问题,提出高质量合成数据生成框架BeyondWeb,系统探索合成数据质量的关键影响因素

2. Highlight/重要结论

  1. 突破数据墙限制:传统网页数据预训练在万亿token规模后会遭遇“数据墙”(高质量信息密度数据稀缺,收益递减),而BeyondWeb通过精心设计的合成数据,可突破此限制——3B参数模型在BeyondWeb上训练180B token,性能超过8B参数模型在Cosmopedia(主流合成数据集)上同token预算的训练效果。

  2. 性能全面领先:在14个基准任务的平均准确率上,BeyondWeb显著超越现有主流合成数据集:较Cosmopedia最高提升5.1个百分点(pp),较Nemotron-CC的高质量子集Nemotron-Synth最高提升2.6pp;在8B模型上,较开源网页数据RedPajama训练速度提升7.7倍,较Nemotron-Synth提升2.7倍。

  3. 合成数据的3个核心原则

    • 优先重写高质量种子数据(而非低质量数据),质量比“知识新颖性”更重要;
    • 需匹配下游使用场景的“风格分布”(如对话式内容,网页中仅占2.7%-3.67%,但却是LLM主要应用场景);
    • 生成策略需保持多样性,避免单一风格导致的性能饱和,尤其在万亿token规模训练中。
  4. 重写模型的灵活性

    • 重写模型“家族无关”:不同模型家族(OLMo、Phi、Mistral、Llama)生成的合成数据质量差异小于1pp,且模型本身的基准准确率与合成数据质量无正相关;
    • 重写模型“规模饱和”:3B参数模型是性能拐点,8B模型较3B仅提升0.4pp,说明无需超大模型即可生成高质量合成数据,降低计算成本。
  5. 无“银弹”,需多因素优化:高质量合成数据生成无单一解决方案,需联合优化数据选择、生成方法、多样性保持、质量控制等多因素;朴素合成方法(如简单续写)收益有限且成本高,而BeyondWeb通过系统性设计实现“变革性提升”。

二、引言:LLM预训练的“数据墙”与合成数据的崛起

1. 研究背景:从“规模驱动”到“数据墙”

在2024年之前,LLM的突破遵循“简单配方”:模型规模指数级扩大 + 网页爬取数据量指数级增加。例如,从GPT-3(175B参数,400B token)到后续模型,参数和数据量持续翻倍,性能随之提升。

但当数据规模达到万亿token后,领域遭遇核心瓶颈——数据墙(Data Wall)

  • 高质量、高信息密度的网页数据变得“极度稀缺”;
  • 继续爬取更多网页数据,模型性能提升的“边际收益急剧递减”(例如,增加100B token数据,准确率仅提升0.1-0.2pp);
  • 重复使用现有数据会导致过拟合,进一步降低训练效率。

为突破数据墙,合成数据(Synthetic Data) 成为核心方向——通过LLM生成数据用于预训练,补充稀缺的高质量网页数据。

2. 合成数据的两大范式:现状与不足

当前合成数据生成主要分为两类范式(生成器驱动范式、源重写范式),但均存在关键局限:

(1)生成器驱动范式(Generator-Driven Paradigm):从无到有造知识
  • 核心逻辑:用超大模型(如GPT-4、Mixtral-8x7B)作为“知识源”,基于种子主题(如“牛顿运动定律”)生成全新训练数据(如教科书、故事),本质是“将生成器的知识蒸馏到数据中”。

  • 代表工作

    • Tiny Stories:用GPT-4生成简化叙事文本,首次实现“小模型(如12M参数)从零训练出连贯英语能力”;
    • Phi系列:2B以下参数模型,结合合成数据与原始网页数据训练,性能超过10倍规模的基线模型;
    • Cosmopedia:开源合成数据集(v2含27B token),用Mixtral-8x7B基于网页衍生的种子主题生成教科书、博客等内容。
  • 核心不足

    • 成本极高:依赖GPT-4、Mixtral等超大模型,生成1B token的计算成本是源重写范式的10-100倍;
    • 模型崩溃(Model Collapse):生成数据继承生成器的知识偏见和 hallucination,且多样性有限,训练多代后性能退化;
    • 可扩展性差:生成大规模数据(如万亿token)时,种子主题设计和生成效率难以兼顾。
(2)源重写范式(Source Rephrasing Paradigm):优化现有知识
  • 核心逻辑:不依赖超大模型造知识,而是用小模型(如Llama-3.1-8B)将现有网页数据重写成“更高质量、更贴合下游任务”的格式(如Q&A、教学文本、逻辑推理题),本质是“提升现有数据的信息密度和适用性”。

  • 代表工作

    • WRAP:首次提出“网页重写增强预训练”,将网页文本转成Q&A格式,预训练速度提升3倍;
    • Nemotron-CC:NVIDIA的大规模合成数据集,其高质量子集Nemotron-Synth通过“分类器筛选高质量网页+多风格重写”生成,含1.5T token;
    • 工业界认可:2025年主流LLM(Kimi K2、Qwen-2.5、Grok-3.5、GPT-5)均采用该范式,成为合成数据的“主导方案”。
  • 核心优势

    • 成本低:小模型重写的计算成本仅为生成器驱动的1/10以下;
    • 多样性高:基于网页数据的广度,重写后保留自然知识分布,避免模型崩溃;
    • 适用性强:可针对性生成下游场景需要的格式(如对话、指令),弥补网页数据的风格缺口。

3. 本文核心问题与贡献

(1)待解决的关键问题

尽管合成数据已被验证有效,但领域仍缺乏系统性科学认知

  • 合成数据的收益来源是什么?是信息密度提升,还是知识蒸馏?
  • 如何设计合成数据才能突破“数据墙”?朴素方法(如续写)是否足够?
  • 重写时“该选什么数据”“用什么方法重写”“选什么模型重写”?
  • 模型规模和家族对合成数据质量的影响如何?
(2)本文核心贡献
  1. 提出BeyondWeb框架:基于源重写范式,通过“目标导向文档重写”生成高多样性、高信息密度的合成数据,建立预训练“准确率-效率”的新帕累托前沿;
  2. 系统性实验验证:在1B、3B、8B参数模型上,跨14个基准任务验证BeyondWeb的性能优势,量化训练速度提升;
  3. 7个关键发现:通过控制变量实验,揭示合成数据质量的核心影响因素(如种子数据质量、风格匹配、多样性),为合成数据生成提供“可落地的指导原则”;
  4. 工业界验证:BeyondWeb是ArceeAI的AFM-4.5B模型(7T token预训练)的核心数据组件,证明其在生产级预训练中的有效性。

三、BeyondWeb:技术方案详解

1. 设计理念:填补网页数据的“三重缺口”

BeyondWeb的核心目标是“让合成数据既保留网页的广度,又弥补其质量、风格、信息密度的缺口”,具体针对网页数据的三大局限:

  1. 质量缺口:网页数据中低质量内容(如广告、重复文本)占比高,直接训练效率低;
  2. 风格缺口:网页以博客、新闻、产品页为主(占比超90%),而LLM主要应用于对话、指令场景(网页中仅占2.7%-3.67%);
  3. 信息密度缺口:网页文本冗长,多冗余信息,每token的“有用知识量”低。

基于此,BeyondWeb的设计理念可概括为: “高质量种子筛选 + 多维度重写增强 + 多样性控制”

2. 核心生成策略:三大重写技术

BeyondWeb不依赖单一重写方法,而是通过三种互补策略提升数据质量,确保多样性:

重写策略核心目标具体示例
格式转换(Format Transformation)提升任务对齐性将科普文章转成“Q&A对”(如“问:牛顿第一定律是什么?答:……”)、将说明文转成“多选题”(如“以下属于力的单位的是?A. 千克 B. 牛顿……”)
风格修改(Style Modification)弥补风格缺口将学术论文的“严谨语气”改成“教学语气”(如“为了验证假设,我们进行了实验”→“我们可以通过以下实验理解这个假设:第一步……”)、将单句文本扩展为“多轮对话”(如“用户:什么是光合作用?助手:……用户:它的关键步骤有哪些?助手:……”)
内容重组(Content Restructuring)提升信息密度将冗长的网页文本“结构化总结”(如将500字的“机器学习流程”总结为“数据收集→预处理→模型训练→评估”的步骤化文本)、删除冗余信息(如广告、无关举例),保留核心知识

3. 数据集对比:与基线的详细差异

为验证BeyondWeb的优势,论文选择4类代表性数据集作为基线,确保对比的公平性:

数据集类型名称来源与特点规模处理方式
非合成基线RedPajama(RPJ)开源网页数据集(Weber et al., 2024),无额外筛选,代表“原始网页数据”约1.2T token直接使用,作为最基础的性能基准
生成器驱动合成基线Cosmopedia-v2Mixtral-8x7B-Instruct生成,基于网页衍生的种子主题(如“数学分析”“历史事件”),含教科书、博客、故事27B token实验中若需更多token,重复使用(模拟生成器驱动的“数据稀缺”问题)
源重写合成基线1QA WRAP基于RedPajama,用Llama-3.1-8B-Instruct重写成Q&A格式(WRAP范式的核心风格)随实验需求生成(10B-180B token)保持“50%原始RedPajama + 50% QA WRAP”的混合比例,控制知识量
源重写合成基线2Nemotron-SynthNemotron-CC的高质量子集,基于“分类器筛选的高质量网页”,用多风格重写(Q&A、MCQ、逻辑题等)1.5T token实验中随机采样,保持各子数据集比例不变,避免抽样偏差
本文方法BeyondWeb基于DCLM数据集(Li et al., 2024a)的高质量子集(用DatologyAI的筛选方法挑选),采用“格式转换+风格修改+内容重组”三重策略重写随实验需求生成(10B-180B token)混合比例与基线一致(如50%原始高质量网页 + 50% BeyondWeb),确保变量唯一

4. 训练设置:细节与可复现性

为确保实验结果的可靠性,论文对训练过程进行严格控制,关键参数如下:

(1)模型配置
模型规模参数数量架构训练token预算核心用途
小模型1BLLAMA-3.21万亿(1T)token验证“超大规模训练下的合成数据稳定性”(超过Chinchilla最优计算量50倍)
中模型3BLLAMA-3.21800亿(180B)token验证“参数规模与合成数据的协同效应”(对比8B模型)
大模型8BLLAMA-3.11800亿(180B)token验证“工业级模型的性能与效率”(主流开源模型规模)
(2)训练超参数
超参数取值说明
优化器AdamWLLM预训练的标准优化器,平衡收敛速度与稳定性
动量参数β₁=0.9,β₂=0.95参考LLAMA系列的默认配置,避免梯度震荡
学习率5e-4早期在RedPajama上进行搜索,确定最优初始学习率
权重衰减1e-7轻微正则化,避免过拟合(尤其合成数据训练)
预热步数1B模型:4K步;3B/8B模型:16K步小模型参数少,预热快;大模型需更长预热避免初期训练不稳定
并行策略完全分片数据并行(FSDP)适合大模型训练,降低显存占用
批大小(Batch Size)512(序列长度2048)平衡训练效率与显存限制,确保每个批次的统计有效性
上下文长度2048主流LLM预训练配置,覆盖多数文本场景
(3)评估设置
  • 评估任务集:14个主流基准任务,覆盖知识问答、常识推理、阅读理解、数学能力等,确保评估的全面性:

    • 知识类:ARC-Challenge(科学知识)、ARC-Easy(基础科学)、OpenBookQA(科学事实)、SciQ(科学问答);
    • 推理类:COPA(因果推理)、CommonsenseQA(常识推理)、SIQA(社交常识)、WinoGrande(指代消解);
    • 阅读理解类:RACE-H(高中英语阅读)、RACE-M(初中英语阅读)、BoolQ(yes/no问答);
    • 综合能力类:HellaSwag(场景续写)、MMLU(57科综合知识)、PIQA(物理常识)。
  • 评估方式

    • prompt设置:0-shot(无示例)和5-shot(5个示例),取两者平均作为最终分数;
    • 多选题评分:采用“Cloze Form(CF)”方法,即仅计算模型对“正确选项”的概率占比,避免随机猜测的干扰;
    • 分数计算:14个任务的准确率取平均,作为“平均准确率(Average Accuracy)”,统一衡量模型性能。

5. BeyondWeb的核心性能:数据与解读

(1)跨规模性能优势

在1B、3B、8B模型上,BeyondWeb均实现“显著且稳定的性能提升”,且优势随模型规模扩大而保持:

模型规模数据集平均准确率(14任务,0-shot+5-shot)较RedPajama提升较Nemotron-Synth提升
1B(1T token)RedPajama50.7%--
1B(1T token)Cosmopedia52.2%+1.5pp-2.1pp
1B(1T token)Nemotron-Synth54.3%+3.6pp-
1B(1T token)BeyondWeb57.4%+6.7pp+3.1pp
3B(180B token)RedPajama53.5%--
3B(180B token)Cosmopedia55.8%+2.3pp-3.0pp
3B(180B token)Nemotron-Synth58.8%+5.3pp-
3B(180B token)BeyondWeb60.8%+7.3pp+2.0pp
8B(180B token)RedPajama56.6%--
8B(180B token)Cosmopedia58.6%+2.0pp-2.5pp
8B(180B token)Nemotron-Synth61.1%+4.5pp-
8B(180B token)BeyondWeb63.7%+7.1pp+2.6pp

关键解读

  • 3B模型的“越级性能”:BeyondWeb训练的3B模型(60.8%)超过所有8B基线模型(除Nemotron-Synth的61.1%外),且差距仅0.3pp;而Cosmopedia的8B模型仅58.6%,证明“高质量合成数据可替代部分模型参数”,降低计算成本。
  • 跨任务一致性:在14个任务中,BeyondWeb在1B模型上最优13个,3B模型上最优12个,8B模型上最优13个(表1),说明收益不是来自“特定任务过拟合”,而是“通用能力提升”。
(2)训练效率提升

BeyondWeb不仅提升准确率,还大幅加快训练收敛速度(“达到相同准确率所需的token数更少”):

  • 8B模型达到RedPajama(180B token)的准确率,仅需23.2B token → 7.7倍速度提升
  • 8B模型达到Nemotron-Synth(180B token)的准确率,仅需66.2B token → 2.7倍速度提升

效率价值

  • 成本降低:按GPU小时计算,7.7倍速度提升意味着训练成本降低至1/7.7;
  • 迭代加速:研究团队可在相同时间内完成更多实验(如模型架构调整、超参数搜索);
  • 民主化:中小机构无需“万亿token预算”,即可训练高性能模型(如用23.2B token达到RedPajama 180B的效果)。
(3)帕累托前沿的突破

在“准确率-训练token”的权衡中,BeyondWeb建立了新的帕累托前沿——即“相同token下准确率更高,相同准确率下token更少”:

  • 例如,3B模型训练180B token,BeyondWeb准确率60.8%,而Cosmopedia的8B模型训练180B token仅58.6%;
  • 1B模型训练1T token,BeyondWeb准确率57.4%,而RedPajama的1B模型训练1T token仅50.7%,差距达6.7pp。

这一突破挑战了“模型规模越大越好”的传统认知,证明“数据质量”可成为与“模型规模”同等重要的性能驱动因素。

四、系统评估:7个关键研究问题的深度解析

为揭示合成数据质量的核心影响因素,论文设计了7个控制变量实验(RQ1-RQ7),均基于1B参数模型(Llama-3.2-1B),训练20B token(10B原始网页数据 + 10B合成数据),确保“知识量固定”,仅改变合成数据的生成方式。

1. RQ1:生成器驱动方法的收益,能否被“简单摘要”替代?

(1)研究问题

生成器驱动范式(如Cosmopedia)的性能优势,是来自“复杂知识蒸馏”(生成器的知识注入),还是“信息密度提升”(将冗余文本压缩)?若仅通过“简单摘要”提升信息密度,能否达到生成器驱动的效果?

(2)实验设计
  • 变量定义

    • 生成器驱动组:Cosmopedia(Mixtral-8x7B-Instruct生成,基于种子主题,复杂生成逻辑);
    • 摘要组:用Llama-3.1-8B,通过“简单摘要prompt”重写10B高质量网页数据,prompt为:“Summarize the following text. Directly start with the summary. Do not say anything else.”(直接总结文本,不额外输出);
    • 基线组:RedPajama-HQ(10B高质量网页数据重复两次,即2x Repeat,控制知识量)。
  • 控制变量:合成数据量均为10B token,原始数据量均为10B token,确保知识总量一致。

(3)实验结果
方法平均准确率较基线(RPJ-HQ 45.5%)提升
RedPajama-HQ(基线)45.5%-
摘要组(简单总结)46.7%+1.2pp
Cosmopedia(生成器驱动)47.1%+1.6pp
BeyondWeb50.4%+4.9pp
(4)关键结论
  1. 生成器驱动的核心收益是信息密度:简单摘要(46.7%)与Cosmopedia(47.1%)性能几乎持平,差距仅0.4pp,说明Cosmopedia的优势并非来自“复杂知识蒸馏”,而是“将冗余文本压缩,提升每token信息密度”;
  2. 摘要≠最优解:BeyondWeb(50.4%)显著超越摘要组(+3.7pp),证明“仅提升信息密度不够”,还需结合风格匹配、多样性等因素;
  3. 源重写的成本优势:摘要组用1个8B模型,成本仅为Cosmopedia(8x7B模型)的1/8,却达到相近性能,说明源重写范式的“成本-收益比”更优。

2. RQ2:合成数据能否突破“数据墙”?朴素方法(如续写)足够吗?

(1)研究问题

当高质量网页数据稀缺时(如仅能获取10B token),合成数据能否突破“重复数据的性能上限”(数据墙)?朴素的合成方法(如“续写现有文本”)是否有效?

(2)实验设计
  • 变量定义

    • 上限组(Full Data):20B unique高质量网页数据(无重复,代表“无数据墙时的性能上限”);
    • 下限组(2x Repeat):10B高质量网页数据重复两次(代表“数据墙下的朴素解决方案”);
    • 续写组(Continuation):10B高质量网页数据 + 10B“模型续写”数据,用Llama-3.1-8B续写,prompt为:“Continue the following text in the same style as the original.”(按原风格续写);
    • BeyondWeb组:10B高质量网页数据 + 10B BeyondWeb合成数据。
  • 关键控制:续写时用“网页文本的后半段”作为输入(避免生成器“记忆”完整文本,导致“作弊”),确保续写内容是“真实合成”而非“复现原始数据”。

(3)实验结果
方法平均准确率关键观察
2x Repeat(下限)45.5%重复数据导致性能下降,较上限组低0.7pp
Full Data(上限)46.2%代表自然网页数据的性能天花板
续写组(朴素合成)46.2%与上限组持平,但未突破,仅“弥补重复的损失”
BeyondWeb50.4%突破上限组4.2pp,证明“精心设计的合成数据可突破数据墙”
(4)关键结论
  1. 重复数据有害:2x Repeat较Full Data低0.7pp,验证了“重复导致过拟合,性能退化”(Muennighoff et al., 2023);
  2. 朴素合成无效:续写仅能“抵消重复的损失”,无法突破数据墙,因为续写内容仍基于原始网页的风格和知识,未填补缺口;
  3. 突破数据墙的关键是“缺口填补” :BeyondWeb通过风格修改(如增加对话内容)、信息密度提升(如重组结构),填补了网页数据的固有缺口,因此能超越自然数据的性能上限。

3. RQ3:重写的“种子数据质量”,比“知识新颖性”更重要吗?

(1)研究问题

当高质量数据稀缺时,是“重写高质量数据(可能重复知识)”更好,还是“重写低质量数据(知识新颖但质量低)”更好?即“种子数据质量”与“知识新颖性”的优先级如何?

(2)实验设计
  • 变量定义

    • 高质量种子组(HQ Synth + HQ Web):10B高质量网页数据(HQ Web)+ 10B“重写高质量网页的合成数据”(HQ Synth),知识存在重复;
    • 低质量种子组(LQ Synth + HQ Web):10B高质量网页数据(HQ Web)+ 10B“重写低质量网页的合成数据”(LQ Synth),知识更新颖;
    • 基线组(LQ Web + HQ Web):10B高质量网页数据 + 10B低质量网页数据(无重写),代表“原始数据的质量混合”。
  • 数据筛选

    • HQ Web:RedPajama的高质量子集(DatologyAI et al., 2024筛选,基于文本长度、可读性、冗余度);
    • LQ Web:RedPajama的随机样本(含广告、重复文本、低可读性内容)。
(3)实验结果
方法平均准确率较基线(45.6%)提升
基线组(LQ Web + HQ Web)45.6%-
低质量种子组(LQ Synth + HQ Web)48.6%+3.0pp
高质量种子组(HQ Synth + HQ Web)49.2%+3.6pp
BeyondWeb50.4%+4.8pp
(4)关键结论
  1. 种子质量优先于知识新颖性:高质量种子组(49.2%)优于低质量种子组(48.6%),说明“重写高质量数据,即使知识重复,也比重写低质量数据的新颖知识更有效”;
  2. 质量提升的叠加效应:低质量种子组(LQ Synth + HQ Web)较基线(LQ Web + HQ Web)提升3.0pp,证明“即使种子质量低,重写也能提升数据质量”;
  3. 高质量种子≠终点:BeyondWeb(50.4%)仍优于高质量种子组,说明“仅用高质量种子重写不够,还需结合多样性、风格匹配等策略”。

4. RQ4:“风格匹配”(生成下游场景需要的风格)对合成数据重要吗?

(1)研究问题

网页数据的风格(如新闻、博客)与LLM的下游场景(如对话、指令)存在巨大差异,若通过合成数据“匹配下游风格”(如增加对话内容),能否提升模型性能?提升幅度是否随风格比例增加而线性增长?

(2)实验设计
  • 第一步:量化网页数据的风格缺口

    • 采样10k RedPajama样本,用GPT-4o标注“对话式内容”(定义为“有问有答、多轮交互”,如客服对话、Q&A论坛);
    • 结果:网页数据中对话式内容仅占2.7% (后续用Organize the Web过滤器验证,RedPajama中为3.67%),而LLM的核心应用场景(如ChatGPT、客服机器人)均为对话式,缺口显著。
  • 第二步:控制风格比例,测试性能

    • 从RedPajama中筛选4类对话式内容:Audio Transcript(音频转录)、Customer Support(客服)、FAQ(常见问题)、Q&A Forum(问答论坛);
    • 构建4组训练数据,对话式内容比例分别为3.67%(基线,RedPajama随机样本)、10%、20%、50%,保持总token数20B;
    • 评估方式:仅测5-shot性能(对话场景更依赖少样本能力)。
(3)实验结果
对话式内容比例5-shot平均准确率较基线(3.67%)提升
3.67%(基线)43.2%-
10%43.5%+0.3pp
20%44.0%+0.8pp
50%44.1%+0.9pp
(4)关键结论
  1. 风格匹配有正向作用:对话比例从3.67%提升到50%,准确率提升0.9pp,证明“匹配下游风格能提升性能”;
  2. 增益快速饱和:20%到50%的对话比例,准确率仅提升0.1pp,说明“风格匹配的收益不是线性的”——当风格比例达到20%时,模型已基本掌握对话式交互的核心模式,继续增加比例无显著收益;
  3. 风格匹配≠充分条件:即使50%对话比例,准确率仅44.1%,远低于BeyondWeb(50.4%),证明“仅靠风格匹配无法实现高性能,需与其他策略结合”。

5. RQ5:在万亿token规模训练中,“生成策略多样性”有多重要?

(1)研究问题

当合成数据规模扩大到“万亿token”时,单一生成策略(如仅生成Q&A)是否会导致“性能饱和”(模型学完该策略的所有模式后,再增加token无收益)?而多样性策略(如同时生成Q&A、对话、指令)能否持续带来收益?

(2)实验设计
  • 变量定义:选择4种代表性生成策略,对比其在“超大规模训练”中的性能趋势:

    • 单一策略1:Cosmopedia(仅生成“教科书风格”文本,生成器驱动,风格固定);
    • 单一策略2:QA WRAP(仅生成“Q&A风格”文本,源重写,格式固定);
    • 多样策略1:Nemotron-Synth(生成Q&A、MCQ、逻辑题等多种格式,源重写,中等多样性);
    • 多样策略2:BeyondWeb(生成Q&A、对话、指令、结构化总结等,源重写,高多样性);
  • 训练规模:1B模型训练1T token(超Chinchilla最优计算量50倍)、3B模型训练180B token、8B模型训练180B token,观察“性能-训练token”的曲线斜率(斜率为正表示持续收益)。

(3)实验结果
生成策略1B模型(1T token)性能趋势3B模型(180B token)性能趋势8B模型(180B token)性能趋势
Cosmopedia(单一)训练500B token后斜率趋近0(饱和),后期过拟合训练100B token后斜率下降训练80B token后斜率趋近0
QA WRAP(单一)训练600B token后斜率趋近0训练120B token后斜率下降训练100B token后斜率趋近0
Nemotron-Synth(中等多样)训练800B token后斜率下降训练150B token后斜率下降训练130B token后斜率下降
BeyondWeb(高多样)训练1T token后斜率仍为正(持续收益),无过拟合训练180B token后斜率保持正训练180B token后斜率保持正
(4)关键结论
  1. 单一策略必然饱和:Cosmopedia和QA WRAP在所有模型规模下均会“性能饱和”——模型快速学会单一风格/格式的模式,再增加token无法获取新信息,甚至过拟合;
  2. 多样性延缓饱和:Nemotron-Synth(中等多样)的饱和时间晚于单一策略,证明“多样性能延长收益周期”;
  3. 高多样性实现持续学习:BeyondWeb在1B模型训练1T token后仍保持正斜率,且无过拟合,说明“高多样性是万亿级合成数据训练的核心需求”——只有不断提供新风格、新格式的 data,模型才能持续学习。

6. RQ6:重写模型的“家族”(如Llama、Mistral)对合成数据质量影响大吗?

(1)研究问题

源重写范式依赖“重写模型”将网页数据转成高质量格式,那么“重写模型的家族”是否会显著影响合成数据质量?例如,是否只有Mistral、Llama等主流模型才能生成高质量数据?

(2)实验设计
  • 变量定义:选择4个不同家族的重写模型,均用相同的“多风格重写prompt”(覆盖Q&A、对话、总结)生成10B合成数据:

    1. OLMo-2-7B(AllenAI,开源模型,基准准确率59.6%);
    2. Phi-4-14B(Microsoft,小参数大性能,基准准确率66.6%);
    3. Mistral-7B-v0.3(Mistral AI,主流开源模型,基准准确率66.0%);
    4. Llama-3.1-8B(Meta,主流开源模型,基准准确率61.2%);
  • 控制变量:prompt完全相同,合成数据量均为10B,原始数据均为10B高质量网页数据,仅改变重写模型家族。

(3)实验结果
重写模型重写模型基准准确率合成数据训练后的平均准确率较基线(45.5%)提升
RedPajama-HQ(基线)-45.5%-
OLMo-2-7B59.6%(最低)49.9%(最高)+4.4pp
Llama-3.1-8B61.2%49.2%+3.7pp
Phi-4-14B66.6%(最高)49.0%+3.5pp
Mistral-7B-v0.366.0%48.9%(最低)+3.4pp
(4)关键结论
  1. 模型家族影响极小:4个模型生成的合成数据质量差异小于1pp(48.9%-49.9%),且均显著优于基线,证明“重写是模型的通用能力,不依赖特定家族”;
  2. 重写模型的基准准确率与合成数据质量无正相关:OLMo-2-7B的基准准确率最低(59.6%),但生成的合成数据质量最高(49.9%);Phi-4-14B基准准确率最高(66.6%),合成数据质量却仅49.0%,说明“模型的通用语言能力≠重写能力”;
  3. 开源模型的可行性:所有模型均为开源或可商用,证明“无需依赖闭源大模型(如GPT-4),即可构建高性能合成数据 pipeline”,降低行业门槛。

7. RQ7:重写模型的“规模”(参数数量)对合成数据质量影响大吗?

(1)研究问题

重写模型的规模是否越大越好?小模型(如1B参数)能否生成高质量合成数据?是否存在“性能拐点”——超过该规模后,模型规模扩大对合成数据质量的提升可忽略?

(2)实验设计
  • 变量定义:选择同一模型家族(Llama-3)的不同规模模型,用相同的“多风格重写prompt”生成10B合成数据:

    1. Llama-3.2-1B(1B参数);
    2. Llama-3.2-3B(3B参数);
    3. Llama-3.1-8B(8B参数);
  • 控制变量:模型家族相同(避免家族差异干扰),prompt相同,合成数据量均为10B,原始数据均为10B高质量网页数据,仅改变重写模型规模。

(3)实验结果
重写模型规模合成数据训练后的平均准确率较基线(45.5%)提升规模每增加一级的提升幅度
RedPajama-HQ(基线)45.5%--
1B47.3%+1.8pp-
3B48.8%+3.3pp1B→3B:+1.5pp
8B49.2%+3.7pp3B→8B:+0.4pp
(4)关键结论
  1. 小模型也能生成高质量合成数据:1B参数模型生成的合成数据较基线提升1.8pp,证明“重写任务无需超大模型,小模型即可胜任”;
  2. 3B参数是性能拐点:1B→3B提升1.5pp(显著),3B→8B仅提升0.4pp(可忽略),说明“重写任务的复杂度有限,3B模型已能掌握核心重写能力(如格式转换、风格调整),更大规模模型的增益递减”;
  3. 成本优化空间大:3B模型的计算成本仅为8B模型的1/4(按FLOPs计算),但合成数据质量仅低0.4pp,证明“用3B模型作为重写器,是‘成本-质量’的最优选择”。

五、未来研究方向

基于BeyondWeb的实践和7个关键发现,论文提出4个值得深入探索的方向:

1. 合成数据的“缩放定律”:量化内在重复

  • 核心问题:真实网页数据的“重复”是显性的(如相同文本多次出现),可直接统计;但合成数据的“重复”是隐性的(如不同重写模型生成相似的Q&A对,源于模型的参数偏见),无法用传统方法量化。
  • 研究目标:建立合成数据的“缩放定律”——即“合成数据量与模型性能的关系”,并提出“内在重复度”的量化指标(如文本相似度分布、知识覆盖度),指导“何时需要停止生成合成数据”。

2. 合成数据生成的“民主化”:最小模型规模探索

  • 核心问题:当前发现3B模型是重写的性能拐点,能否进一步降低到1B甚至更小(如700M)?小模型的重写能力是否可通过“特定微调”(如用少量高质量重写数据微调小模型)进一步提升?
  • 研究目标:找到“有效重写的最小模型规模”,并开发“低成本微调方法”,让中小机构甚至个人研究者也能生成高质量合成数据,推动LLM预训练的民主化。

3. 合成数据与“人类价值观对齐”:预训练阶段的对齐

  • 核心问题:当前LLM的对齐(如安全、无害)主要依赖“预训练后微调”(如RLHF),成本高且易出现“对齐偏移”(预训练的知识与微调的价值观冲突)。合成数据能否在“预训练阶段”就注入人类价值观(如生成“尊重隐私”“拒绝暴力”的文本)?
  • 研究目标:设计“价值观导向的合成数据生成方法”,让模型在预训练阶段就学习到对齐行为,减少对后验对齐的依赖,提升对齐的稳定性和效率。

4. 合成数据的“跨领域/跨模态”扩展

  • 核心问题:当前合成数据主要基于“网页文本”,能否扩展到“领域特定数据”(如医疗、法律文档)或“跨模态数据”(如文本-图像、文本-音频)?例如,用源重写范式重写医疗论文,生成“医生-患者对话”的合成数据,用于医疗LLM预训练。
  • 研究目标:验证源重写范式在非网页、跨模态场景的有效性,突破“领域数据墙”(如医疗领域高质量数据稀缺),推动LLM在垂直领域的应用。

六、结论:高质量合成数据无“银弹”,需系统性设计

1. 核心总结

  1. 数据墙是可突破的:传统网页数据的预训练收益递减并非“不可逆转”,通过BeyondWeb这样“高质量种子+多维度重写+多样性控制”的合成数据,可突破数据墙,实现“小模型超越大模型”的性能;

  2. 合成数据的3个核心原则

    • 优先选择高质量种子数据,质量比知识新颖性更重要;
    • 匹配下游场景的风格分布,但需注意收益饱和;
    • 保持生成策略的多样性,尤其在万亿token规模训练中;
  3. 重写模型的“低成本化” :重写无需依赖特定家族或超大模型,3B参数的开源模型即可生成高质量数据,大幅降低计算成本;

  4. 无“银弹”,需多因素优化:高质量合成数据生成是“系统工程”,需联合优化数据选择、生成方法、多样性、质量控制等因素,朴素方法(如续写、单一风格重写)仅能带来有限收益,而系统性设计(如BeyondWeb)可实现变革性提升。

2. 行业启示

  1. 数据质量将成为LLM竞争的核心:随着模型规模的增长逐渐放缓(8B-70B参数成为主流),“数据质量”将取代“模型规模”,成为LLM性能的关键差异化因素;
  2. 合成数据将重构LLM预训练流程:未来LLM预训练的流程可能从“爬取网页→过滤→训练”转变为“筛选高质量种子→重写生成合成数据→混合训练”,大幅提升训练效率;
  3. 中小机构的机遇:合成数据的低成本化(3B模型重写)让中小机构无需“万亿token爬取预算”,即可通过“高质量合成数据”训练高性能模型,打破大型科技公司的垄断。

BeyondWeb的实践证明,LLM预训练已进入“数据精细化时代”——不再是“有多少数据就用多少”,而是“如何用有限的数据生成更有价值的合成数据”。这一方向不仅能提升模型性能,更能推动LLM技术的可持续发展(减少对网页数据的依赖,降低训练成本和能源消耗),为LLM的广泛应用奠定基础。

七、附录关键信息补充

1. 训练细节

  • 学习率调度:采用“线性预热+余弦衰减”,预热后学习率按余弦曲线下降,避免训练后期梯度震荡;
  • 梯度裁剪:梯度范数裁剪为1.0,防止梯度爆炸;
  • 数据加载:采用“动态批处理”(Dynamic Batching),根据序列长度调整批大小,确保每个批次的token数一致(512×2048=1.024M token);
  • 硬件环境:实验基于NVIDIA A100 GPU(80GB显存),1B模型用8张GPU,3B模型用16张GPU,8B模型用32张GPU。

2. 14个评估任务详情

任务名称任务类型数据规模评估目标
ARC-Challenge(ARC-C)科学知识问答2.59K题小学到高中科学知识,需推理
ARC-Easy(ARC-E)基础科学知识7.79K题基础科学事实,难度较低
BoolQYes/No问答15.9K题自然语言生成的事实性问答
COPA因果推理1K题给定前提,选择合理的原因/结果
CommonsenseQA(CSQA)常识推理12.1K题日常生活中的常识知识
HellaSwag场景续写50K题选择符合常识的场景结尾
MMLU综合知识14K题(57科)数学、历史、法律、医学等综合知识
OpenBookQA(OBQA)科学事实5.96K题基于“公开科学知识库”的问答
PIQA物理常识20K题日常生活中的物理动作合理性判断
RACE-H阅读理解69.4K题中国高中英语阅读理解题
RACE-M阅读理解28.3K题中国初中英语阅读理解题
SIQA社交常识38K题社交互动中的常识推理
SciQ科学问答13.7K题物理、化学、生物的科学问答
WinoGrande指代消解44K题解决代词指代歧义,需常识