王者归来!F2LLM-v2再下一城,登顶MTEB泰语、西语新榜单

0 阅读1分钟

就在不久前,CodeFuse 发布的 F2LLM-v2 模型家族以其在17个 MTEB 基准测试中横扫11项 SOTA 的卓越表现,赢得了社区的广泛关注和认可。

今天,我们激动地向大家宣布:F2LLM-v2 再次用实力证明了其强大的多语言能力。

全球最权威的嵌入模型评测榜单 MTEB(Massive Text Embedding Benchmark)最近推出了针对泰语和西班牙语的全新测试基准。在这两个新战场上,F2LLM-v2 不负众望,再度登顶,展现了在更多语种上的亮眼表现。

往期回顾:

juejin.cn/post/762100…

🏆 泰语新榜单:F2LLM-v2 包揽前六

在泰语排行榜上,F2LLM-v2 模型家族展现了非凡的实力,14B、8B、4B、1.7B、0.6B、330M 模型强势占据了榜首前六的位置,大幅领先于包括 12B 参数量的 KaLM-Embedding 在内的其他模型。

🏆 西班牙语新榜单:F2LLM-v2 包揽前三,稳居开源模型第一梯队

在竞争同样激烈的西班牙语榜单上,F2LLM-v2 系列模型同样表现出色,与一众顶尖模型(包括 Gemini-embedding-001 等闭源 API)同台竞技,包揽总榜前三,在开源模型中持续领跑。

路线验证:数据驱动的成果

F2LLM-v2 在泰语和西班牙语新榜单上的成功并非偶然,而是我们从一开始就坚持的“语言包容性”设计理念的必然结果。

在 F2LLM-v2 的技术报告中我们就曾提到:

“我们的数据管理流程是由真实世界的数据可用性驱动的,而不是为特定的基准测试进行优化。例如,尽管MTEB当时缺少西班牙语、阿拉伯语、意大利语等专用基准,我们的数据集中仍然包含了大量这些语言的数据。”

正是这种“先有真实世界需求,再有模型卓越能力”的研发哲学,使得 F2LLM-v2 能够在新发布的、未经过“应试”优化的语种上依然展现出 SOTA 级别的性能。这充分验证了我们训练数据的多样性和模型架构的泛化能力。

F2LLM-v2:高性能、全尺寸、超高效的多语嵌入模型

让我们再次回顾 F2LLM-v2 领先成绩背后的核心亮点:

1. 极致包容

  • **海量数据:**基于6000万条高质量公开数据训练,覆盖282种自然语言和超40种编程语言。

  • **关注长尾:**特别关注并增强了中、低资源语言的性能,致力于消除语言数字鸿沟。

2. 全面领先

  • **SOTA收割机:**在最初的17个MTEB榜单中已斩获11项第一,如今随着泰语、西语榜单的登顶,其领先地位得到进一步巩固。

  • **覆盖广泛:**在代码、医疗、欧洲、斯堪的纳维亚、印度语族等多个垂直和区域性榜单上均表现卓越。

3. 高效灵活

  • **全尺寸覆盖:**提供从 80M 到 14B 的8种不同尺寸模型,满足从边缘计算到企业级应用的全场景需求。

  • **前沿技术融合:**结合了模型剪枝、知识蒸馏和俄罗斯套娃等技术,实现了性能与效率的最佳平衡。即使是小尺寸模型,也具备超越同级对手的强大实力。

4. 完全开源

  • **透明可复现:**我们秉持开放研究的理念,已将所有模型、训练数据、代码和中间检查点完全开放,希望能为社区的研究和应用注入新的活力。

结语

F2LLM-v2在泰语和西班牙语新榜单上的卓越表现,再次印证了其作为新一代多语言嵌入模型的标杆地位。我们始终秉持着构建一个真正包容、普惠的多语言AI世界的初心,坚信 AI 的未来是多元和包容的。F2LLM-v2 将继续作为连接不同语言和文化的桥梁,赋能全球开发者和研究者。

我们诚挚地邀请您体验F2LLM-v2,共同探索多语言AI的无限可能!

传送门 🚀

关于我们

我们是蚂蚁集团的风险智能引擎团队。团队成立 4 年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇,两次获得蚂蚁技术最高奖 T-Star ,1 次蚂蚁集团最高奖 SuperMA ,我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。

团队常年招聘研究型实习生,有志于大模型、Agent、强化学习、AIops、时序多模态的同学欢迎联系 wr189061@antgroup.com,期待与你一起,探索AI的无限可能!🌟

如果您想更快地获取到最新信息,欢迎加入我们的微信群。

企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~