Mistral 7B -34B以下最好的Model, 在所有数据集上打败Llama 2 13b!
Mistral AI 团队很自豪地发布了 Mistral 7B,这是迄今为止最强大的7B语言模型。
Mistral 7B简介
Mistral 7B是一个7.3B参数模型
- 在所有基准测试中都优于 Llama 2 13B
- 在许多基准测试中优于 Llama 1 34B
- 接近CodeLlama 7B的代码性能,同时保持良好的英语任务
- 使用分组查询注意力 (GQA) 加快推理速度
- 使用滑动窗口注意 (SWA) 以更低的成本处理更长的序列
我们将在Apache2许可证下发布Mistral 7B,它可以不受限制地使用。
- 下载它并通过我们的参考实现在任何地方(包括本地)使用它
- 将其部署在任何云(AWS/GCP/Azure)上,使用vLLM推理服务器和skypilot
- 在HuggingFace上使用它
Mistral 7B很容易在任何任务上进行微调。
作为演示,我们提供了一个针对聊天进行微调的模型,它的性能优于 Llama 2 13B chat
细节表现
我们将Mistral 7B与Llama 2系列进行了比较,并重新运行了所有模型评估以进行公平比较。
Mistral 7B 和不同美洲驼型号在各种基准测试上的性能。对于所有指标,所有模型都使用我们的评估管道进行了重新评估,以便进行准确比较。Mistral 7B在所有指标上都明显优于Llama 2 13B,与Llama 34B相当(由于Llama 2 34B未发布,我们报告了Llama 34B的结果)。它在代码和推理基准方面也非常出色。
基准按其主题分类:
- 常识推理:Hellaswag,Winogrande,PIQA,SIQA,OpenbookQA,ARC-Easy,ARC挑战和CommonsenseQA的0-shot平均值。
- 世界知识:NaturalQuestions和TriviaQA的5次平均数。
- 阅读理解:BoolQ 和 QuAC 的 0 次平均数。
- 数学:8 次 GSM8K 的平均值,maj@8 次和 4 次 MATH 的平均值,maj@4
- 代码:0 发人间和 3 发 MBPP 的平均值
- 热门汇总结果:5 次 MMLU、3 次 BBH 和 3-5 次 AGI 评估(仅限英语多项选择题)
比较模型在成本/性能平面中的表现的一个有趣指标是计算“等效模型大小”。在推理,理解和STEM推理(MMLU)方面,Mistral 7B的性能相当于其大小超过2倍的Llama 3。这在内存中节省和增加的吞吐量一样多。
关于MMLU,常识推理,世界知识和阅读理解的结果,为米斯特拉尔7B和美洲驼2(7B / 13 / 70B)。Mistral 7B在所有评估中都大大优于Llama 2 13B,除了知识基准,它与它相当(这可能是由于其有限的参数计数,这限制了它可以压缩的知识量)。
注意:我们的评估与LLaMA2论文之间的重要区别:
- 对于 MBPP,我们使用手动验证的子集
- 对于琐事QA,我们不提供维基百科上下文
闪光与激情:注意力漂移
Mistral 7B使用滑动窗口注意力(SWA)机制(Child等人,Beltagy等人),其中每一层都关注先前的隐藏状态。 主要改进,以及最初研究的原因,是O(sliding_window.seq_len)的线性计算成本。实际上,对 FlashAttention 和 xFormer 所做的更改使序列长度在 2k 窗口为 16k 的情况下将速度提高了 4 倍。非常感谢Tri Dao和Daniel Haziza的帮助,包括这些变化。4,096
滑动窗口注意力利用变压器的堆叠层来参加过去超出窗口大小的标记:层的令牌关注层的令牌。这些令牌关注令牌。更高的层次可以比注意力模式似乎更深入地访问过去的信息。ik[i-sliding_window, i]k-1[i-2*sliding_window, i]
最后,固定的注意力跨度意味着我们可以使用旋转缓冲区将缓存限制为令牌的大小(在我们的参考实现存储库中阅读更多内容)。这样可以节省一半的缓存内存,用于对 的序列长度进行推理,而不会影响模型质量。sliding_window8192
Acknowledgements
我们非常感谢 CoreWeave 在编组我们的集群方面提供的 24/7 全天候帮助。
我们感谢CINECA/EuroHPC团队,特别是莱昂纳多的运营商,感谢他们的资源和帮助。
我们感谢FlashAttention,vLLM,xFormers,Skypilot,TGI的维护者在实施新功能并将他们的解决方案集成到我们的解决方案方面的宝贵帮助。
我们感谢HuggingFace,AWS,GCP,Azure ML团队的大力帮助,使我们的模型在任何地方兼容。
想要看更多 mistral 7b的教程?请看: mistral 7B