小尺寸Embedding模型新SOTA？哈工深等提出KaLM-Embedding-V2哈工深等提出KaLM-Embedd

🚀 Title: KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model
📘Paper: www.arxiv.org/abs/2506.20…
💻 Code: github.com/HITsz-TMG/K…
🤔Model: huggingface.co/HIT-TMG/KaL…

哈工深等提出KaLM-Embedding-V2，一款不到0.5B参数、通用性极强的文本嵌入模型。通过结构调整（采用双向注意力+均值池化）、多阶段训练（弱监督预训练+高质量微调+模型融合）、聚焦于难样本学习和在线困难负样本合成等创新技术，模型在MTEB中英文任务中显著超越同规模模型，甚至强于3x-26x大的模型表现。

✨ 亮点：

💡 架构优化：移除因果掩码，使用双向Transformer+Mean Pooling，更适合表示学习。
🧪 多阶段训练：包含弱监督预训练、高质量数据微调、模型融合。
🔍 新式对比学习技巧：聚焦于难负样本学习；在线困难负样本合成降低计算负担。
📚 大规模多样化数据集：预训练20+类数据，微调覆盖100+类任务。
🏆 SOTA成绩：在MTEB中文/英文评测中全面领先同体积模型，逼近甚至超越超大模型。