Ai2 OLMo 2：提高开放语言模型的标准Ai2 正在发布 OLMo 2，这是一系列开源语言模型，旨在推动 AI 的民

Ai2 正在发布 OLMo 2，这是一系列开源语言模型，旨在推动 AI 的民主化，缩小开放和专有解决方案之间的差距。

新模型有 7B 和 13B 参数版本，在多达 5 万亿个 token 上进行训练，其性能水平可与同类完全开放模型相媲美或超过同类完全开放模型，同时在英语学术基准上与 Llama 3.1 等开放权重模型保持竞争力。

“自 2024 年 2 月发布第一个 OLMo 以来，我们看到开放语言模型生态系统的快速增长，以及开放和专有模型之间的性能差距缩小，”Ai2 解释说。

开发团队通过多项创新实现了这些改进，包括增强的训练稳定性措施、分阶段的训练方法以及源自其 Tülu 3 框架的最先进的后训练方法。显着的技术改进包括从非参数层范数切换到 RMSNorm 以及实现旋转位置嵌入。

OLMo 2 模型训练取得突破

训练过程采用了复杂的两阶段方法。初始阶段利用了约 3.9 万亿个 token 的 OLMo-Mix-1124 数据集，这些 token 来源于 DCLM、Dolma、Starcoder 和 Proof Pile II。第二阶段通过 Dolmino-Mix-1124 数据集整合了精心策划的高质量网络数据和领域特定内容。

特别值得注意的是 OLMo 2-Instruct-13B 变体，它是该系列中功能最强大的模型。与 Qwen 2.5 14B instruct、Tülu 3 8B 和 Llama 3.1 8B instruct 模型相比，该模型在各种基准测试中都表现出卓越的性能。

（来源：Ai2）

致力于开放科学

Ai2 加强了对开放科学的承诺，发布了全面的文档，包括权重、数据、代码、配方、中间检查点和指令调整模型。这种透明度允许更广泛的 AI 社区全面检查和重现结果。

该版本还引入了一个名为 OLMES（开放语言建模评估系统）的评估框架，包含 20 个基准，旨在评估知识回忆、常识推理和数学推理等核心能力。

OLMo 2 提高了开源 AI 开发的标准，有可能加快该领域的创新步伐，同时保持透明度和可访问性。