FineWeb 2：开源的多语言预训练数据集，覆盖超过 1000 种语言

2024-12-12 218 阅读3分钟

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

多语言支持：覆盖超过 1000 种语言，支持全球多种语言的 NLP 任务。
定制化处理：针对不同语言特性，调整数据处理流程，包括语言特定的过滤器和停用词。
技术评估：提供评估和训练代码，方便研究人员和开发者测试和训练模型。

正文

FineWeb 2 是什么

公众号: 蚝油菜花 - fineweb-2

FineWeb 2 是 Hugging Face 推出的多语言预训练数据集，覆盖超过 1000 种语言。该数据集通过定制化的数据管道处理，包括语言识别、去重、内容过滤和 PII 匿名化，适应不同语言的特点。

FineWeb 2 数据集支持广泛的 NLP 任务，如机器翻译、文本分类等，帮助提升多语言模型的性能和泛化能力。FineWeb 2 为开发者和研究人员提供检验新算法和技术的平台，提高多语言处理的普遍性和性能。

FineWeb 2 的主要功能

多语言数据集构建：为超过 1000 种语言提供高质量的预训练数据，支持全球多种语言的 NLP 任务。
定制化数据处理：针对不同语言的特性，调整数据处理流程，包括语言特定的过滤器和停用词。
语言识别：使用 GlotLID 技术，识别文档中的语言和使用的脚本。
去重：按语言全局去重，保留文档的多样性，记录重复文档的大小，便于“重新水化”数据集。
数据过滤：保留原始 FineWeb 的过滤集，根据多语言环境调整，适应不同语言。
PII 匿名化：对个人身份信息进行匿名化处理，保护隐私。
编码修复：使用 FTFY 工具修复编码问题。
评估与训练：提供评估和训练代码，方便研究人员和开发者测试和训练模型。

FineWeb 2 的技术原理

数据预处理：
- 语言识别：基于 GlotLID 技术对文档进行语言识别，确定文档的语言和使用的脚本。
- 去重：对每种语言的数据进行全局去重，保留一个文档，记录重复文档的簇大小。
- 过滤：根据语言特性调整过滤器，去除不符合要求的数据。
- PII 匿名化：对文档中的个人身份信息进行匿名化处理，包括电子邮件和 IP 地址。
- 数据“重新水化”：根据重复文档的簇大小，对文档进行上采样，提高某些语言的数据量和质量。
评估与训练：
- 使用 FineTasks 评估套件对每个处理步骤后的模型进行评估。
- 提供训练代码，基于 nanotron 框架训练 1.46B 模型。

资源

项目官网：huggingface.co/datasets/Hu…
GitHub 仓库：github.com/huggingface…
评估代码：huggingface.co/spaces/Hugg…
训练代码：github.com/huggingface…
工具版本信息：github.com/huggingface…

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦