留下阅读 (2025) TransMLA: Multi-Head Latent Attention Is All You Need 的痕迹。
一言蔽之,就是让 Multi-Head Attention 的 kv 映射到低秩空间上,就像 LoRA 一样。
论文其实就只给了个思路,实验结果不是很全面。实验部分用了 Qwen2.5-7B 与其 MLA 改版,使用数据集 SmolTalk 进行微调,然后看到 MLA 版本模型的测试准确度更高。
实现方法
其实很直接。
Multi-Head Attention 的 qkv 是这样从输入 X 获得的:
Q=XWQ∈RT×(nh⋅dh)
K=XWK∈RT×(nh⋅dh)
V=XWV∈RT×(nh⋅dh)
- WQ,WK,WV∈RD×(nh⋅dh),权重矩阵
- nk,一个头的维度
- dh,头数
对于 MLA,是这样的形式:
Q=XWQ∈RT×(nh⋅dh)
K=XWKaWKb∈RT×(nh⋅dh)
V=XWVaWVb∈RT×(nh⋅dh)
- WKa,WVa∈RD×r
- WKb,WVb∈RD×r
- r 是压缩维度。r<nh⋅dh
可见和 LoRA 思路一样,只是 LoRA 变成了 kv 计算的主干。