BeyondWeb：万亿级预训练中合成数据规模化的经验与实践BeyondWeb：万亿级预训练中合成数据规模化的经验与实践

BeyondWeb：万亿级预训练中合成数据规模化的经验与实践

一、论文核心信息概览

1. 基础信息

论文标题：BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining（BeyondWeb：万亿级预训练中合成数据规模化的经验总结）
研究机构：DatologyAI Team
论文地址：arxiv.org/pdf/2508.10…
核心定位：聚焦大语言模型（LLM）预训练的“数据墙”问题，提出高质量合成数据生成框架BeyondWeb，系统探索合成数据质量的关键影响因素

2. Highlight/重要结论

突破数据墙限制：传统网页数据预训练在万亿token规模后会遭遇“数据墙”（高质量信息密度数据稀缺，收益递减），而BeyondWeb通过精心设计的合成数据，可突破此限制——3B参数模型在BeyondWeb上训练180B token，性能超过8B参数模型在Cosmopedia（主流合成数据集）上同token预算的训练效果。
性能全面领先：在14个基准任务的平均准确率上，BeyondWeb显著超越现有主流合成数据集：较Cosmopedia最高提升5.1个百分点（pp），较Nemotron-CC的高质量子集Nemotron-Synth最高提升2.6pp；在8B模型上，较开源网页数据RedPajama训练速度提升7.7倍，较Nemotron-Synth提升2.7倍。
合成数据的3个核心原则：
- 优先重写高质量种子数据（而非低质量数据），质量比“知识新颖性”更重要；
- 需匹配下游使用场景的“风格分布”（如对话式内容，网页中仅占2.7%-3.67%，但却是LLM主要应用场景）；
- 生成策略需保持多样性，避免单一风格导致的性能饱和，尤其在万亿token规模训练中。
重写模型的灵活性：
- 重写模型“家族无关”：不同模型家族（OLMo、Phi、Mistral、Llama）生成的合成数据质量差异小于1pp，且模型本身的基准准确率与合成数据质量无正相关；
- 重写模型“规模饱和”：3B参数模型是性能拐点，8B模型较3B仅提升0.4pp，说明无需超大模型即可生成高质量合成数据，降低计算成本。
无“银弹”，需多因素优化：高质量合成数据生成无单一解决方案，需联合优化数据选择、生成方法、多样性保持、质量控制等多因素；朴素合成方法（如简单续写）收益有限且成本高，而BeyondWeb通过系统性设计实现“变革性提升”。

二、引言：LLM预训练的“数据墙”与合成数据的崛起

1. 研究背景：从“规模驱动”到“数据墙”

在2024年之前，LLM的突破遵循“简单配方”：模型规模指数级扩大 + 网页爬取数据量指数级增加。例如，从GPT-3（175B参数，400B token）到后续模型，参数和数据量持续翻倍，性能随之提升。

但当数据规模达到万亿token后，领域遭遇核心瓶颈——数据墙（Data Wall） ：

高质量、高信息密度的网页数据变得“极度稀缺”；
继续爬取更多网页数据，模型性能提升的“边际收益急剧递减”（例如，增加100B token数据，准确率仅提升0.1-0.2pp）；
重复使用现有数据会导致过拟合，进一步降低训练效率。

为突破数据墙，合成数据（Synthetic Data） 成为核心方向——通过LLM生成数据用于预训练，补充稀缺的高质量网页数据。

2. 合成数据的两大范式：现状与不足

当前合成数据生成主要分为两类范式（生成器驱动范式、源重写范式），但均存在关键局限：

（1）生成器驱动范式（Generator-Driven Paradigm）：从无到有造知识

核心逻辑：用超大模型（如GPT-4、Mixtral-8x7B）作为“知识源”，基于种子主题（如“牛顿运动定律”）生成全新训练数据（如教科书、故事），本质是“将生成器的知识蒸馏到数据中”。
代表工作：
- Tiny Stories：用GPT-4生成简化叙事文本，首次实现“小模型（如12M参数）从零训练出连贯英语能力”；
- Phi系列：2B以下参数模型，结合合成数据与原始网页数据训练，性能超过10倍规模的基线模型；
- Cosmopedia：开源合成数据集（v2含27B token），用Mixtral-8x7B基于网页衍生的种子主题生成教科书、博客等内容。
核心不足：
- 成本极高：依赖GPT-4、Mixtral等超大模型，生成1B token的计算成本是源重写范式的10-100倍；
- 模型崩溃（Model Collapse）：生成数据继承生成器的知识偏见和 hallucination，且多样性有限，训练多代后性能退化；
- 可扩展性差：生成大规模数据（如万亿token）时，种子主题设计和生成效率难以兼顾。

（2）源重写范式（Source Rephrasing Paradigm）：优化现有知识

核心逻辑：不依赖超大模型造知识，而是用小模型（如Llama-3.1-8B）将现有网页数据重写成“更高质量、更贴合下游任务”的格式（如Q&A、教学文本、逻辑推理题），本质是“提升现有数据的信息密度和适用性”。
代表工作：
- WRAP：首次提出“网页重写增强预训练”，将网页文本转成Q&A格式，预训练速度提升3倍；
- Nemotron-CC：NVIDIA的大规模合成数据集，其高质量子集Nemotron-Synth通过“分类器筛选高质量网页+多风格重写”生成，含1.5T token；
- 工业界认可：2025年主流LLM（Kimi K2、Qwen-2.5、Grok-3.5、GPT-5）均采用该范式，成为合成数据的“主导方案”。
核心优势：
- 成本低：小模型重写的计算成本仅为生成器驱动的1/10以下；
- 多样性高：基于网页数据的广度，重写后保留自然知识分布，避免模型崩溃；
- 适用性强：可针对性生成下游场景需要的格式（如对话、指令），弥补网页数据的风格缺口。

3. 本文核心问题与贡献

（1）待解决的关键问题

尽管合成数据已被验证有效，但领域仍缺乏系统性科学认知：

合成数据的收益来源是什么？是信息密度提升，还是知识蒸馏？
如何设计合成数据才能突破“数据墙”？朴素方法（如续写）是否足够？
重写时“该选什么数据”“用什么方法重写”“选什么模型重写”？
模型规模和家族对合成数据质量的影响如何？

（2）本文核心贡献

提出BeyondWeb框架：基于源重写范式，通过“目标导向文档重写”生成高多样性、高信息密度的合成数据，建立预训练“准确率-效率”的新帕累托前沿；
系统性实验验证：在1B、3B、8B参数模型上，跨14个基准任务验证BeyondWeb的性能优势，量化训练速度提升；
7个关键发现：通过控制变量实验，揭示合成数据质量的核心影响因素（如种子数据质量、风格匹配、多样性），为合成数据生成提供“可落地的指导原则”；
工业界验证：BeyondWeb是ArceeAI的AFM-4.5B模型（7T token预训练）的核心数据组件，证明其在生产级预训练中的有效性。

三、BeyondWeb：技术方案详解

1. 设计理念：填补网页数据的“三重缺口”

BeyondWeb的核心目标是“让合成数据既保留网页的广度，又弥补其质量、风格、信息密度的缺口”，具体针对网页数据的三大局限：

质量缺口：网页数据中低质量内容（如广告、重复文本）占比高，直接训练效率低；
风格缺口：网页以博客、新闻、产品页为主（占比超90%），而LLM主要应用于对话、指令场景（网页中仅占2.7%-3.67%）；
信息密度缺口：网页文本冗长，多冗余信息，每token的“有用知识量”低。

基于此，BeyondWeb的设计理念可概括为： “高质量种子筛选 + 多维度重写增强 + 多样性控制” 。

2. 核心生成策略：三大重写技术

BeyondWeb不依赖单一重写方法，而是通过三种互补策略提升数据质量，确保多样性：

重写策略	核心目标	具体示例
格式转换（Format Transformation）	提升任务对齐性	将科普文章转成“Q&A对”（如“问：牛顿第一定律是什么？答：……”）、将说明文转成“多选题”（如“以下属于力的单位的是？A. 千克 B. 牛顿……”）
风格修改（Style Modification）	弥补风格缺口	将学术论文的“严谨语气”改成“教学语气”（如“为了验证假设，我们进行了实验”→“我们可以通过以下实验理解这个假设：第一步……”）、将单句文本扩展为“多轮对话”（如“用户：什么是光合作用？助手：……用户：它的关键步骤有哪些？助手：……”）
内容重组（Content Restructuring）	提升信息密度	将冗长的网页文本“结构化总结”（如将500字的“机器学习流程”总结为“数据收集→预处理→模型训练→评估”的步骤化文本）、删除冗余信息（如广告、无关举例），保留核心知识

3. 数据集对比：与基线的详细差异

为验证BeyondWeb的优势，论文选择4类代表性数据集作为基线，确保对比的公平性：

数据集类型	名称	来源与特点	规模	处理方式
非合成基线	RedPajama（RPJ）	开源网页数据集（Weber et al., 2024），无额外筛选，代表“原始网页数据”	约1.2T token	直接使用，作为最基础的性能基准
生成器驱动合成基线	Cosmopedia-v2	Mixtral-8x7B-Instruct生成，基于网页衍生的种子主题（如“数学分析”“历史事件”），含教科书、博客、故事	27B token	实验中若需更多token，重复使用（模拟生成器驱动的“数据稀缺”问题）
源重写合成基线1	QA WRAP	基于RedPajama，用Llama-3.1-8B-Instruct重写成Q&A格式（WRAP范式的核心风格）	随实验需求生成（10B-180B token）	保持“50%原始RedPajama + 50% QA WRAP”的混合比例，控制知识量
源重写合成基线2	Nemotron-Synth	Nemotron-CC的高质量子集，基于“分类器筛选的高质量网页”，用多风格重写（Q&A、MCQ、逻辑题等）	1.5T token	实验中随机采样，保持各子数据集比例不变，避免抽样偏差
本文方法	BeyondWeb	基于DCLM数据集（Li et al., 2024a）的高质量子集（用DatologyAI的筛选方法挑选），采用“格式转换+风格修改+内容重组”三重策略重写	随实验需求生成（10B-180B token）	混合比例与基线一致（如50%原始高质量网页 + 50% BeyondWeb），确保变量唯一

4. 训练设置：细节与可复现性

为确保实验结果的可靠性，论文对训练过程进行严格控制，关键参数如下：

（1）模型配置

模型规模	参数数量	架构	训练token预算	核心用途
小模型	1B	LLAMA-3.2	1万亿（1T）token	验证“超大规模训练下的合成数据稳定性”（超过Chinchilla最优计算量50倍）
中模型	3B	LLAMA-3.2	1800亿（180B）token	验证“参数规模与合成数据的协同效应”（对比8B模型）
大模型	8B	LLAMA-3.1	1800亿（180B）token	验证“工业级模型的性能与效率”（主流开源模型规模）

（2）训练超参数

超参数	取值	说明
优化器	AdamW	LLM预训练的标准优化器，平衡收敛速度与稳定性
动量参数	β₁=0.9，β₂=0.95	参考LLAMA系列的默认配置，避免梯度震荡
学习率	5e-4	早期在RedPajama上进行搜索，确定最优初始学习率
权重衰减	1e-7	轻微正则化，避免过拟合（尤其合成数据训练）
预热步数	1B模型：4K步；3B/8B模型：16K步	小模型参数少，预热快；大模型需更长预热避免初期训练不稳定
并行策略	完全分片数据并行（FSDP）	适合大模型训练，降低显存占用
批大小（Batch Size）	512（序列长度2048）	平衡训练效率与显存限制，确保每个批次的统计有效性
上下文长度	2048	主流LLM预训练配置，覆盖多数文本场景

（3）评估设置

评估任务集：14个主流基准任务，覆盖知识问答、常识推理、阅读理解、数学能力等，确保评估的全面性：
- 知识类：ARC-Challenge（科学知识）、ARC-Easy（基础科学）、OpenBookQA（科学事实）、SciQ（科学问答）；
- 推理类：COPA（因果推理）、CommonsenseQA（常识推理）、SIQA（社交常识）、WinoGrande（指代消解）；
- 阅读理解类：RACE-H（高中英语阅读）、RACE-M（初中英语阅读）、BoolQ（yes/no问答）；
- 综合能力类：HellaSwag（场景续写）、MMLU（57科综合知识）、PIQA（物理常识）。
评估方式：
- prompt设置：0-shot（无示例）和5-shot（5个示例），取两者平均作为最终分数；
- 多选题评分：采用“Cloze Form（CF）”方法，即仅计算模型对“正确选项”的概率占比，避免随机猜测的干扰；
- 分数计算：14个任务的准确率取平均，作为“平均准确率（Average Accuracy）”，统一衡量模型性能。

5. BeyondWeb的核心性能：数据与解读

（1）跨规模性能优势

在1B、3B、8B模型上，BeyondWeb均实现“显著且稳定的性能提升”，且优势随模型规模扩大而保持：

模型规模	数据集	平均准确率（14任务，0-shot+5-shot）	较RedPajama提升	较Nemotron-Synth提升
1B（1T token）	RedPajama	50.7%	-	-
1B（1T token）	Cosmopedia	52.2%	+1.5pp	-2.1pp
1B（1T token）	Nemotron-Synth	54.3%	+3.6pp	-
1B（1T token）	BeyondWeb	57.4%	+6.7pp	+3.1pp
3B（180B token）	RedPajama	53.5%	-	-
3B（180B token）	Cosmopedia	55.8%	+2.3pp	-3.0pp
3B（180B token）	Nemotron-Synth	58.8%	+5.3pp	-
3B（180B token）	BeyondWeb	60.8%	+7.3pp	+2.0pp
8B（180B token）	RedPajama	56.6%	-	-
8B（180B token）	Cosmopedia	58.6%	+2.0pp	-2.5pp
8B（180B token）	Nemotron-Synth	61.1%	+4.5pp	-
8B（180B token）	BeyondWeb	63.7%	+7.1pp	+2.6pp

关键解读：

3B模型的“越级性能”：BeyondWeb训练的3B模型（60.8%）超过所有8B基线模型（除Nemotron-Synth的61.1%外），且差距仅0.3pp；而Cosmopedia的8B模型仅58.6%，证明“高质量合成数据可替代部分模型参数”，降低计算成本。
跨任务一致性：在14个任务中，BeyondWeb在1B模型上最优13个，3B模型上最优12个，8B模型上最优13个（表1），说明收益不是来自“特定任务过拟合”，而是“通用能力提升”。

（2）训练效率提升

BeyondWeb不仅提升准确率，还大幅加快训练收敛速度（“达到相同准确率所需的token数更少”）：

8B模型达到RedPajama（180B token）的准确率，仅需23.2B token → 7.7倍速度提升；
8B模型达到Nemotron-Synth（180B token）的准确率，仅需66.2B token → 2.7倍速度提升。

效率价值：

成本降低：按GPU小时计算，7.7倍速度提升意味着训练成本降低至1/7.7；
迭代加速：研究团队可在相同时间内完成更多实验（如模型架构调整、超参数搜索）；
民主化：中小机构无需“万亿token预算”，即可训练高性能模型（如用23.2B token达到RedPajama 180B的效果）。

（3）帕累托前沿的突破

在“准确率-训练token”的权衡中，BeyondWeb建立了新的帕累托前沿——即“相同token下准确率更高，相同准确率下token更少”：

例如，3B模型训练180B token，BeyondWeb准确率60.8%，而Cosmopedia的8B模型训练180B token仅58.6%；
1B模型训练1T token，BeyondWeb准确率57.4%，而RedPajama的1B模型训练1T token仅50.7%，差距达6.7pp。

这一突破挑战了“模型规模越大越好”的传统认知，证明“数据质量”可成为与“模型规模”同等重要的性能驱动因素。

四、系统评估：7个关键研究问题的深度解析

为揭示合成数据质量的核心影响因素，论文设计了7个控制变量实验（RQ1-RQ7），均基于1B参数模型（Llama-3.2-1B），训练20B token（10B原始网页数据 + 10B合成数据），确保“知识量固定”，仅改变合成数据的生成方式。

1. RQ1：生成器驱动方法的收益，能否被“简单摘要”替代？

（1）研究问题

生成器驱动范式（如Cosmopedia）的性能优势，是来自“复杂知识蒸馏”（生成器的知识注入），还是“信息密度提升”（将冗余文本压缩）？若仅通过“简单摘要”提升信息密度，能否达到生成器驱动的效果？

（2）实验设计

变量定义：
- 生成器驱动组：Cosmopedia（Mixtral-8x7B-Instruct生成，基于种子主题，复杂生成逻辑）；
- 摘要组：用Llama-3.1-8B，通过“简单摘要prompt”重写10B高质量网页数据，prompt为：“Summarize the following text. Directly start with the summary. Do not say anything else.”（直接总结文本，不额外输出）；
- 基线组：RedPajama-HQ（10B高质量网页数据重复两次，即2x Repeat，控制知识量）。
控制变量：合成数据量均为10B token，原始数据量均为10B token，确保知识总量一致。

（3）实验结果

方法	平均准确率	较基线（RPJ-HQ 45.5%）提升
RedPajama-HQ（基线）	45.5%	-
摘要组（简单总结）	46.7%	+1.2pp
Cosmopedia（生成器驱动）	47.1%	+1.6pp
BeyondWeb	50.4%	+4.9pp

（4）关键结论

生成器驱动的核心收益是信息密度：简单摘要（46.7%）与Cosmopedia（47.1%）性能几乎持平，差距仅0.4pp，说明Cosmopedia的优势并非来自“复杂知识蒸馏”，而是“将冗余文本压缩，提升每token信息密度”；
摘要≠最优解：BeyondWeb（50.4%）显著超越摘要组（+3.7pp），证明“仅提升信息密度不够”，还需结合风格匹配、多样性等因素；
源重写的成本优势：摘要组用1个8B模型，成本仅为Cosmopedia（8x7B模型）的1/8，却达到相近性能，说明源重写范式的“成本-收益比”更优。

2. RQ2：合成数据能否突破“数据墙”？朴素方法（如续写）足够吗？

（1）研究问题

当高质量网页数据稀缺时（如仅能获取10B token），合成数据能否突破“重复数据的性能上限”（数据墙）？朴素的合成方法（如“续写现有文本”）是否有效？

（2）实验设计

变量定义：
- 上限组（Full Data）：20B unique高质量网页数据（无重复，代表“无数据墙时的性能上限”）；
- 下限组（2x Repeat）：10B高质量网页数据重复两次（代表“数据墙下的朴素解决方案”）；
- 续写组（Continuation）：10B高质量网页数据 + 10B“模型续写”数据，用Llama-3.1-8B续写，prompt为：“Continue the following text in the same style as the original.”（按原风格续写）；
- BeyondWeb组：10B高质量网页数据 + 10B BeyondWeb合成数据。
关键控制：续写时用“网页文本的后半段”作为输入（避免生成器“记忆”完整文本，导致“作弊”），确保续写内容是“真实合成”而非“复现原始数据”。

（3）实验结果

方法	平均准确率	关键观察
2x Repeat（下限）	45.5%	重复数据导致性能下降，较上限组低0.7pp
Full Data（上限）	46.2%	代表自然网页数据的性能天花板
续写组（朴素合成）	46.2%	与上限组持平，但未突破，仅“弥补重复的损失”
BeyondWeb	50.4%	突破上限组4.2pp，证明“精心设计的合成数据可突破数据墙”

（4）关键结论

重复数据有害：2x Repeat较Full Data低0.7pp，验证了“重复导致过拟合，性能退化”（Muennighoff et al., 2023）；
朴素合成无效：续写仅能“抵消重复的损失”，无法突破数据墙，因为续写内容仍基于原始网页的风格和知识，未填补缺口；
突破数据墙的关键是“缺口填补” ：BeyondWeb通过风格修改（如增加对话内容）、信息密度提升（如重组结构），填补了网页数据的固有缺口，因此能超越自然数据的性能上限。

3. RQ3：重写的“种子数据质量”，比“知识新颖性”更重要吗？

（1）研究问题

当高质量数据稀缺时，是“重写高质量数据（可能重复知识）”更好，还是“重写低质量数据（知识新颖但质量低）”更好？即“种子数据质量”与“知识新颖性”的优先级如何？

（2）实验设计

变量定义：
- 高质量种子组（HQ Synth + HQ Web）：10B高质量网页数据（HQ Web）+ 10B“重写高质量网页的合成数据”（HQ Synth），知识存在重复；
- 低质量种子组（LQ Synth + HQ Web）：10B高质量网页数据（HQ Web）+ 10B“重写低质量网页的合成数据”（LQ Synth），知识更新颖；
- 基线组（LQ Web + HQ Web）：10B高质量网页数据 + 10B低质量网页数据（无重写），代表“原始数据的质量混合”。
数据筛选：
- HQ Web：RedPajama的高质量子集（DatologyAI et al., 2024筛选，基于文本长度、可读性、冗余度）；
- LQ Web：RedPajama的随机样本（含广告、重复文本、低可读性内容）。

（3）实验结果

方法	平均准确率	较基线（45.6%）提升
基线组（LQ Web + HQ Web）	45.6%	-
低质量种子组（LQ Synth + HQ Web）	48.6%	+3.0pp
高质量种子组（HQ Synth + HQ Web）	49.2%	+3.6pp
BeyondWeb	50.4%	+4.8pp

（4）关键结论

种子质量优先于知识新颖性：高质量种子组（49.2%）优于低质量种子组（48.6%），说明“重写高质量数据，即使知识重复，也比重写低质量数据的新颖知识更有效”；
质量提升的叠加效应：低质量种子组（LQ Synth + HQ Web）较基线（LQ Web + HQ Web）提升3.0pp，证明“即使种子质量低，重写也能提升数据质量”；
高质量种子≠终点：BeyondWeb（50.4%）仍优于高质量种子组，说明“仅用高质量种子重写不够，还需结合多样性、风格匹配等策略”。

4. RQ4：“风格匹配”（生成下游场景需要的风格）对合成数据重要吗？

（1）研究问题

网页数据的风格（如新闻、博客）与LLM的下游场景（如对话、指令）存在巨大差异，若通过合成数据“匹配下游风格”（如增加对话内容），能否提升模型性能？提升幅度是否随风格比例增加而线性增长？

（2）实验设计

第一步：量化网页数据的风格缺口：
- 采样10k RedPajama样本，用GPT-4o标注“对话式内容”（定义为“有问有答、多轮交互”，如客服对话、Q&A论坛）；
- 结果：网页数据中对话式内容仅占2.7% （后续用Organize the Web过滤器验证，RedPajama中为3.67%），而LLM的核心应用场景（如ChatGPT、客服机器人）均为对话式，缺口显著。
第二步：控制风格比例，测试性能：
- 从RedPajama中筛选4类对话式内容：Audio Transcript（音频转录）、Customer Support（客服）、FAQ（常见问题）、Q&A Forum（问答论坛）；
- 构建4组训练数据，对话式内容比例分别为3.67%（基线，RedPajama随机样本）、10%、20%、50%，保持总token数20B；
- 评估方式：仅测5-shot性能（对话场景更依赖少样本能力）。

（3）实验结果

对话式内容比例	5-shot平均准确率	较基线（3.67%）提升
3.67%（基线）	43.2%	-
10%	43.5%	+0.3pp
20%	44.0%	+0.8pp
50%	44.1%	+0.9pp

（4）关键结论

风格匹配有正向作用：对话比例从3.67%提升到50%，准确率提升0.9pp，证明“匹配下游风格能提升性能”；
增益快速饱和：20%到50%的对话比例，准确率仅提升0.1pp，说明“风格匹配的收益不是线性的”——当风格比例达到20%时，模型已基本掌握对话式交互的核心模式，继续增加比例无显著收益；
风格匹配≠充分条件：即使50%对话比例，准确率仅44.1%，远低于BeyondWeb（50.4%），证明“仅靠风格匹配无法实现高性能，需与其他策略结合”。

5. RQ5：在万亿token规模训练中，“生成策略多样性”有多重要？

（1）研究问题

当合成数据规模扩大到“万亿token”时，单一生成策略（如仅生成Q&A）是否会导致“性能饱和”（模型学完该策略的所有模式后，再增加token无收益）？而多样性策略（如同时生成Q&A、对话、指令）能否持续带来收益？

（2）实验设计

变量定义：选择4种代表性生成策略，对比其在“超大规模训练”中的性能趋势：
- 单一策略1：Cosmopedia（仅生成“教科书风格”文本，生成器驱动，风格固定）；
- 单一策略2：QA WRAP（仅生成“Q&A风格”文本，源重写，格式固定）；
- 多样策略1：Nemotron-Synth（生成Q&A、MCQ、逻辑题等多种格式，源重写，中等多样性）；
- 多样策略2：BeyondWeb（生成Q&A、对话、指令、结构化总结等，源重写，高多样性）；
训练规模：1B模型训练1T token（超Chinchilla最优计算量50倍）、3B模型训练180B token、8B模型训练180B token，观察“性能-训练token”的曲线斜率（斜率为正表示持续收益）。

（3）实验结果

生成策略	1B模型（1T token）性能趋势	3B模型（180B token）性能趋势	8B模型（180B token）性能趋势
Cosmopedia（单一）	训练500B token后斜率趋近0（饱和），后期过拟合	训练100B token后斜率下降	训练80B token后斜率趋近0
QA WRAP（单一）	训练600B token后斜率趋近0	训练120B token后斜率下降	训练100B token后斜率趋近0
Nemotron-Synth（中等多样）	训练800B token后斜率下降	训练150B token后斜率下降	训练130B token后斜率下降
BeyondWeb（高多样）	训练1T token后斜率仍为正（持续收益），无过拟合	训练180B token后斜率保持正	训练180B token后斜率保持正

（4）关键结论

单一策略必然饱和：Cosmopedia和QA WRAP在所有模型规模下均会“性能饱和”——模型快速学会单一风格/格式的模式，再增加token无法获取新信息，甚至过拟合；
多样性延缓饱和：Nemotron-Synth（中等多样）的饱和时间晚于单一策略，证明“多样性能延长收益周期”；
高多样性实现持续学习：BeyondWeb在1B模型训练1T token后仍保持正斜率，且无过拟合，说明“高多样性是万亿级合成数据训练的核心需求”——只有不断提供新风格、新格式的 data，模型才能持续学习。

6. RQ6：重写模型的“家族”（如Llama、Mistral）对合成数据质量影响大吗？

（1）研究问题

源重写范式依赖“重写模型”将网页数据转成高质量格式，那么“重写模型的家族”是否会显著影响合成数据质量？例如，是否只有Mistral、Llama等主流模型才能生成高质量数据？

（2）实验设计

变量定义：选择4个不同家族的重写模型，均用相同的“多风格重写prompt”（覆盖Q&A、对话、总结）生成10B合成数据：
1. OLMo-2-7B（AllenAI，开源模型，基准准确率59.6%）；
2. Phi-4-14B（Microsoft，小参数大性能，基准准确率66.6%）；
3. Mistral-7B-v0.3（Mistral AI，主流开源模型，基准准确率66.0%）；
4. Llama-3.1-8B（Meta，主流开源模型，基准准确率61.2%）；
控制变量：prompt完全相同，合成数据量均为10B，原始数据均为10B高质量网页数据，仅改变重写模型家族。

（3）实验结果

重写模型	重写模型基准准确率	合成数据训练后的平均准确率	较基线（45.5%）提升
RedPajama-HQ（基线）	-	45.5%	-
OLMo-2-7B	59.6%（最低）	49.9%（最高）	+4.4pp
Llama-3.1-8B	61.2%	49.2%	+3.7pp
Phi-4-14B	66.6%（最高）	49.0%	+3.5pp
Mistral-7B-v0.3	66.0%	48.9%（最低）	+3.4pp

（4）关键结论

模型家族影响极小：4个模型生成的合成数据质量差异小于1pp（48.9%-49.9%），且均显著优于基线，证明“重写是模型的通用能力，不依赖特定家族”；
重写模型的基准准确率与合成数据质量无正相关：OLMo-2-7B的基准准确率最低（59.6%），但生成的合成数据质量最高（49.9%）；Phi-4-14B基准准确率最高（66.6%），合成数据质量却仅49.0%，说明“模型的通用语言能力≠重写能力”；
开源模型的可行性：所有模型均为开源或可商用，证明“无需依赖闭源大模型（如GPT-4），即可构建高性能合成数据 pipeline”，降低行业门槛。

7. RQ7：重写模型的“规模”（参数数量）对合成数据质量影响大吗？

（1）研究问题

重写模型的规模是否越大越好？小模型（如1B参数）能否生成高质量合成数据？是否存在“性能拐点”——超过该规模后，模型规模扩大对合成数据质量的提升可忽略？

（2）实验设计

变量定义：选择同一模型家族（Llama-3）的不同规模模型，用相同的“多风格重写prompt”生成10B合成数据：
1. Llama-3.2-1B（1B参数）；
2. Llama-3.2-3B（3B参数）；
3. Llama-3.1-8B（8B参数）；
控制变量：模型家族相同（避免家族差异干扰），prompt相同，合成数据量均为10B，原始数据均为10B高质量网页数据，仅改变重写模型规模。

（3）实验结果

重写模型规模	合成数据训练后的平均准确率	较基线（45.5%）提升	规模每增加一级的提升幅度
RedPajama-HQ（基线）	45.5%	-	-
1B	47.3%	+1.8pp	-
3B	48.8%	+3.3pp	1B→3B：+1.5pp
8B	49.2%	+3.7pp	3B→8B：+0.4pp

（4）关键结论

小模型也能生成高质量合成数据：1B参数模型生成的合成数据较基线提升1.8pp，证明“重写任务无需超大模型，小模型即可胜任”；
3B参数是性能拐点：1B→3B提升1.5pp（显著），3B→8B仅提升0.4pp（可忽略），说明“重写任务的复杂度有限，3B模型已能掌握核心重写能力（如格式转换、风格调整），更大规模模型的增益递减”；
成本优化空间大：3B模型的计算成本仅为8B模型的1/4（按FLOPs计算），但合成数据质量仅低0.4pp，证明“用3B模型作为重写器，是‘成本-质量’的最优选择”。

五、未来研究方向

基于BeyondWeb的实践和7个关键发现，论文提出4个值得深入探索的方向：

1. 合成数据的“缩放定律”：量化内在重复

核心问题：真实网页数据的“重复”是显性的（如相同文本多次出现），可直接统计；但合成数据的“重复”是隐性的（如不同重写模型生成相似的Q&A对，源于模型的参数偏见），无法用传统方法量化。
研究目标：建立合成数据的“缩放定律”——即“合成数据量与模型性能的关系”，并提出“内在重复度”的量化指标（如文本相似度分布、知识覆盖度），指导“何时需要停止生成合成数据”。

2. 合成数据生成的“民主化”：最小模型规模探索

核心问题：当前发现3B模型是重写的性能拐点，能否进一步降低到1B甚至更小（如700M）？小模型的重写能力是否可通过“特定微调”（如用少量高质量重写数据微调小模型）进一步提升？
研究目标：找到“有效重写的最小模型规模”，并开发“低成本微调方法”，让中小机构甚至个人研究者也能生成高质量合成数据，推动LLM预训练的民主化。

3. 合成数据与“人类价值观对齐”：预训练阶段的对齐

核心问题：当前LLM的对齐（如安全、无害）主要依赖“预训练后微调”（如RLHF），成本高且易出现“对齐偏移”（预训练的知识与微调的价值观冲突）。合成数据能否在“预训练阶段”就注入人类价值观（如生成“尊重隐私”“拒绝暴力”的文本）？
研究目标：设计“价值观导向的合成数据生成方法”，让模型在预训练阶段就学习到对齐行为，减少对后验对齐的依赖，提升对齐的稳定性和效率。

4. 合成数据的“跨领域/跨模态”扩展

核心问题：当前合成数据主要基于“网页文本”，能否扩展到“领域特定数据”（如医疗、法律文档）或“跨模态数据”（如文本-图像、文本-音频）？例如，用源重写范式重写医疗论文，生成“医生-患者对话”的合成数据，用于医疗LLM预训练。
研究目标：验证源重写范式在非网页、跨模态场景的有效性，突破“领域数据墙”（如医疗领域高质量数据稀缺），推动LLM在垂直领域的应用。

六、结论：高质量合成数据无“银弹”，需系统性设计

1. 核心总结

数据墙是可突破的：传统网页数据的预训练收益递减并非“不可逆转”，通过BeyondWeb这样“高质量种子+多维度重写+多样性控制”的合成数据，可突破数据墙，实现“小模型超越大模型”的性能；
合成数据的3个核心原则：
- 优先选择高质量种子数据，质量比知识新颖性更重要；
- 匹配下游场景的风格分布，但需注意收益饱和；
- 保持生成策略的多样性，尤其在万亿token规模训练中；
重写模型的“低成本化” ：重写无需依赖特定家族或超大模型，3B参数的开源模型即可生成高质量数据，大幅降低计算成本；
无“银弹”，需多因素优化：高质量合成数据生成是“系统工程”，需联合优化数据选择、生成方法、多样性、质量控制等因素，朴素方法（如续写、单一风格重写）仅能带来有限收益，而系统性设计（如BeyondWeb）可实现变革性提升。

2. 行业启示

数据质量将成为LLM竞争的核心：随着模型规模的增长逐渐放缓（8B-70B参数成为主流），“数据质量”将取代“模型规模”，成为LLM性能的关键差异化因素；
合成数据将重构LLM预训练流程：未来LLM预训练的流程可能从“爬取网页→过滤→训练”转变为“筛选高质量种子→重写生成合成数据→混合训练”，大幅提升训练效率；
中小机构的机遇：合成数据的低成本化（3B模型重写）让中小机构无需“万亿token爬取预算”，即可通过“高质量合成数据”训练高性能模型，打破大型科技公司的垄断。

BeyondWeb的实践证明，LLM预训练已进入“数据精细化时代”——不再是“有多少数据就用多少”，而是“如何用有限的数据生成更有价值的合成数据”。这一方向不仅能提升模型性能，更能推动LLM技术的可持续发展（减少对网页数据的依赖，降低训练成本和能源消耗），为LLM的广泛应用奠定基础。

七、附录关键信息补充

1. 训练细节

学习率调度：采用“线性预热+余弦衰减”，预热后学习率按余弦曲线下降，避免训练后期梯度震荡；
梯度裁剪：梯度范数裁剪为1.0，防止梯度爆炸；
数据加载：采用“动态批处理”（Dynamic Batching），根据序列长度调整批大小，确保每个批次的token数一致（512×2048=1.024M token）；
硬件环境：实验基于NVIDIA A100 GPU（80GB显存），1B模型用8张GPU，3B模型用16张GPU，8B模型用32张GPU。

2. 14个评估任务详情

任务名称	任务类型	数据规模	评估目标
ARC-Challenge（ARC-C）	科学知识问答	2.59K题	小学到高中科学知识，需推理
ARC-Easy（ARC-E）	基础科学知识	7.79K题	基础科学事实，难度较低
BoolQ	Yes/No问答	15.9K题	自然语言生成的事实性问答
COPA	因果推理	1K题	给定前提，选择合理的原因/结果
CommonsenseQA（CSQA）	常识推理	12.1K题	日常生活中的常识知识
HellaSwag	场景续写	50K题	选择符合常识的场景结尾
MMLU	综合知识	14K题（57科）	数学、历史、法律、医学等综合知识
OpenBookQA（OBQA）	科学事实	5.96K题	基于“公开科学知识库”的问答
PIQA	物理常识	20K题	日常生活中的物理动作合理性判断
RACE-H	阅读理解	69.4K题	中国高中英语阅读理解题
RACE-M	阅读理解	28.3K题	中国初中英语阅读理解题
SIQA	社交常识	38K题	社交互动中的常识推理
SciQ	科学问答	13.7K题	物理、化学、生物的科学问答
WinoGrande	指代消解	44K题	解决代词指代歧义，需常识