就在不久前,CodeFuse 发布的 F2LLM-v2 模型家族以其在17个 MTEB 基准测试中横扫11项 SOTA 的卓越表现,赢得了社区的广泛关注和认可。
今天,我们激动地向大家宣布:F2LLM-v2 再次用实力证明了其强大的多语言能力。
全球最权威的嵌入模型评测榜单 MTEB(Massive Text Embedding Benchmark)最近推出了针对泰语和西班牙语的全新测试基准。在这两个新战场上,F2LLM-v2 不负众望,再度登顶,展现了在更多语种上的亮眼表现。
往期回顾:
🏆 泰语新榜单:F2LLM-v2 包揽前六
在泰语排行榜上,F2LLM-v2 模型家族展现了非凡的实力,14B、8B、4B、1.7B、0.6B、330M 模型强势占据了榜首前六的位置,大幅领先于包括 12B 参数量的 KaLM-Embedding 在内的其他模型。

🏆 西班牙语新榜单:F2LLM-v2 包揽前三,稳居开源模型第一梯队
在竞争同样激烈的西班牙语榜单上,F2LLM-v2 系列模型同样表现出色,与一众顶尖模型(包括 Gemini-embedding-001 等闭源 API)同台竞技,包揽总榜前三,在开源模型中持续领跑。

路线验证:数据驱动的成果
F2LLM-v2 在泰语和西班牙语新榜单上的成功并非偶然,而是我们从一开始就坚持的“语言包容性”设计理念的必然结果。
在 F2LLM-v2 的技术报告中我们就曾提到:
“我们的数据管理流程是由真实世界的数据可用性驱动的,而不是为特定的基准测试进行优化。例如,尽管MTEB当时缺少西班牙语、阿拉伯语、意大利语等专用基准,我们的数据集中仍然包含了大量这些语言的数据。”

正是这种“先有真实世界需求,再有模型卓越能力”的研发哲学,使得 F2LLM-v2 能够在新发布的、未经过“应试”优化的语种上依然展现出 SOTA 级别的性能。这充分验证了我们训练数据的多样性和模型架构的泛化能力。
F2LLM-v2:高性能、全尺寸、超高效的多语嵌入模型
让我们再次回顾 F2LLM-v2 领先成绩背后的核心亮点:
1. 极致包容
-
**海量数据:**基于6000万条高质量公开数据训练,覆盖282种自然语言和超40种编程语言。
-
**关注长尾:**特别关注并增强了中、低资源语言的性能,致力于消除语言数字鸿沟。
2. 全面领先
-
**SOTA收割机:**在最初的17个MTEB榜单中已斩获11项第一,如今随着泰语、西语榜单的登顶,其领先地位得到进一步巩固。
-
**覆盖广泛:**在代码、医疗、欧洲、斯堪的纳维亚、印度语族等多个垂直和区域性榜单上均表现卓越。

3. 高效灵活
-
**全尺寸覆盖:**提供从 80M 到 14B 的8种不同尺寸模型,满足从边缘计算到企业级应用的全场景需求。
-
**前沿技术融合:**结合了模型剪枝、知识蒸馏和俄罗斯套娃等技术,实现了性能与效率的最佳平衡。即使是小尺寸模型,也具备超越同级对手的强大实力。
4. 完全开源
-
**透明可复现:**我们秉持开放研究的理念,已将所有模型、训练数据、代码和中间检查点完全开放,希望能为社区的研究和应用注入新的活力。
结语
F2LLM-v2在泰语和西班牙语新榜单上的卓越表现,再次印证了其作为新一代多语言嵌入模型的标杆地位。我们始终秉持着构建一个真正包容、普惠的多语言AI世界的初心,坚信 AI 的未来是多元和包容的。F2LLM-v2 将继续作为连接不同语言和文化的桥梁,赋能全球开发者和研究者。
我们诚挚地邀请您体验F2LLM-v2,共同探索多语言AI的无限可能!
传送门 🚀
-
Hugging Face (模型下载):huggingface.co/collections…
-
**GitHub (代码与模型):**github.com/codefuse-ai…
-
**技术报告 (arXiv):**arxiv.org/abs/2603.19…
关于我们
我们是蚂蚁集团的风险智能引擎团队。团队成立 4 年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇,两次获得蚂蚁技术最高奖 T-Star ,1 次蚂蚁集团最高奖 SuperMA ,我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。
团队常年招聘研究型实习生,有志于大模型、Agent、强化学习、AIops、时序多模态的同学欢迎联系 wr189061@antgroup.com,期待与你一起,探索AI的无限可能!🌟
如果您想更快地获取到最新信息,欢迎加入我们的微信群。
企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~