- 🚀 Title: KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model
- 📘Paper: www.arxiv.org/abs/2506.20…
- 💻 Code: github.com/HITsz-TMG/K…
- 🤔Model: huggingface.co/HIT-TMG/KaL…
哈工深等提出KaLM-Embedding-V2,一款不到0.5B参数、通用性极强的文本嵌入模型。通过结构调整(采用双向注意力+均值池化)、多阶段训练(弱监督预训练+高质量微调+模型融合)、聚焦于难样本学习和在线困难负样本合成等创新技术,模型在MTEB中英文任务中显著超越同规模模型,甚至强于3x-26x大的模型表现。
✨ 亮点:
- 💡 架构优化:移除因果掩码,使用双向Transformer+Mean Pooling,更适合表示学习。
- 🧪 多阶段训练:包含弱监督预训练、高质量数据微调、模型融合。
- 🔍 新式对比学习技巧:聚焦于难负样本学习;在线困难负样本合成降低计算负担。
- 📚 大规模多样化数据集:预训练20+类数据,微调覆盖100+类任务。
- 🏆 SOTA成绩:在MTEB中文/英文评测中全面领先同体积模型,逼近甚至超越超大模型。