LoRA微调的下一个突破口,可能不在"做大",而在"做小"。 刚刚,Macaron AI背后的研究团队Mind Lab发布最新研究,基于一组覆盖216次完整训练的大规模实验,得出了一个反直觉的结论: 在推理RL任务中,rank 1到rank 4的超低秩LoRA已经表现出明确的正向信号;而rank 64到rank 256的高秩LoRA基本饱和——成本一直涨,性能却不再前进。
换句话说,整个行业一直在"卷大"——更高的rank、更多的可训练参数、更大的优化器状态。但Mind Lab的实验数据告诉你:这个方向已经走到头了。真正的研究增长点,在曲线的另一端。 这不是又一个"中庸是黄金"的鸡汤结论,而是一个把研究议程和部署默认值彻底分开的方法论转向。
一句话总结:部署选中间,研究往下走 先把核心结论摆在前面: rank 16到32:依然是当前最稳的部署默认值 rank 1到4:已经显示出正向信号,说明低秩区域是"未优化"而非"不可能" rank 64到256:观察到的实验中已经饱和——参数量持续上升,性能边界没有改善 下一个有意义的突破:很可能来自把微小适配器变得稳定,而不是把大适配器变得更大 Mind Lab的判断是:LoRA-RL的研究议程,应该从"adapter能做多大才更好"转向"adapter能做多小才不崩"。
为什么这个问题值得追? LoRA在后训练阶段重要,不仅是因为它原则上用更少的可训练参数。 更小的adapter意味着: 更少的优化器状态 更轻的checkpoint 更低的内存压力 同时维护多个候选adapter的可能性 这一点在推理RL里比普通的监督微调更重要。RL是方差敏感的——进步往往需要更多种子、更多消融实验、更多奖励调试、更多prompt覆盖,这些成本经常超出实际预算。 更小的可训练参数量不只是系统层面的便利,它能改变整个研究循环的经济学。 这就是为什么低秩端值得死磕:如果非常小的adapter能变得可靠,同样的预算就能跑更多重复实验,而更多的重复正是脆弱体系最需要的东西。 某种意义上,这是一个反身性命题——把每次实验做得更便宜,本身就让发现"小秩适用配方"变得更容易。
实验设计:216次完整训练,9个rank × 4个批次 × 6个种子 Mind Lab这次没有用单点数据说话,而是构建了一个相当扎实的实验网格: 基座模型:Qwen3-8B 算法:PPO 训练步数:500步 LoRA rank覆盖:1, 2, 4, 8, 16, 32, 64, 128, 256(共9档) 批次大小:16, 32, 64, 128(共4档) 每个配置种子数:6个 总实验数:9 × 4 × 6 = 216次完整训练 数据集是混合数学语料,约24,000条训练样本和1,330条评估样本,覆盖GSM8K、MATH、OpenR1、DAPO、Nemotron、OpenThoughts和AIME风格的子集。 奖励是可验证的:正确性是主要信号,boxed答案格式有小幅奖惩,输出长度有轻量正则化。
把曲线拆成三段读:每一段都讲了不同的故事
第一段:低秩区域已经有信号
最有力的证据是简单的数字。
在rank 1、batch 16的配置下,6个种子的平均增益是+0.0154(约1.5个百分点),没有出现任何负增益的run。
往上一档:
rank 2:四种batch下平均增益从0.0383到0.0456
rank 4:增益范围0.0653到0.0791
这不是一个普遍失败的体系。这是一个仍然可行但还不够鲁棒的体系。
这个区分至关重要。如果整个低秩区域都是均匀负增益,那合理的结论就是"adapter太小了根本带不动"。但数据不是这么说的——曲线告诉你即使是非常小的adapter也能指向正确方向,只是稳定性还不够。
低秩失败更像是配方问题,而不是容量限制。小adapter同时面对三重压力:更新容量窄、RL方差大、超参数往往是从更大rank继承下来的。任何一个环节不匹配,微小的正向信号就可能在变得可重复之前就消失。
第二段:中秩区域是当前的部署默认值
中段之所以重要,因为这里的配方"无聊"得恰到好处。
rank 16:平均增益0.1012
rank 32:平均增益0.1019
24次run中没有出现一次负增益
更关键的是Pareto视角——真实决策不是只看分数,而是要在分数、成本、吞吐、风险之间权衡。在当前实验中,所有非劣解都落在中秩家族里。
这意味着rank 16到32不只是"平均分数最高"的位置,更是操作权衡最干净的位置。
正确的使用方式是把它当作基准线,而不是停止追问的借口。
第三段:高秩区域成本超过价值
曲线右侧远没有第一眼看上去那么有趣:
rank 32:平均增益10.2个百分点
rank 64:9.4个百分点
rank 128:7.8个百分点
rank 256:5.3个百分点
一旦过了中段,继续推高rank主要买到的是更大的内存占用,而不是更高的价值。
最重要的成本是机会成本。在固定研究预算下:
从rank 16升到rank 64,模拟实验容量从24个种子-run降到17个
升到rank 256,降到9个种子-run
而平均增益并没有改善
每一单位"没有改善边界"的rank,都是本可以花在更多种子、更多任务、更多消融实验上的预算——尤其是花在脆弱的低秩端。
平均分vs最佳分:两种完全不同的信号
读rank sweep最有用的方法之一,是把平均分和最佳分分开看。
平均分:6个种子的平均最终评估分数,回答的是"配方能否稳定达成?"
最佳分:同一组run中最强单种子的最终分数,回答的是"这个体系在当前配方下能否触达强解?"
当低秩的最佳分已经有竞争力,但平均分还在落后——这就是潜在upside的证据。
容量已经存在,但配方还没能稳定地访问它。
反过来,当平均分和最佳分在右侧都趋于平坦,就没有理由相信更高的rank藏着更好的故事。
如果一个低秩配置只在最佳run上获胜,它确实还不是部署候选。但它可能是最重要的研究候选——因为它证明这个体系不是空的,剩下的工作就是缩小平均-最佳的差距。
接下来该做什么实验? 当前的实验数据足以定义研究议程,即使还没解决问题。Mind Lab列出了一份优先清单: 更好的初始化。 如果低秩已经接近一个有用的更新子空间,那么初始化的重要性可能远高于在过参数化体系中。 低秩专属的优化策略。 学习率、LoRA scaling、KL schedule、clipping、optimizer设置,可能都需要为rank 1或rank 2专门匹配。 更强的方差控制。 奖励噪声、批次效应、早期不稳定都会抹掉小幅正向信号。低秩端应该从更紧的控制中获得不成比例的收益。 结构化的参数分配。 全局统一rank可能本身就是错误的对象。混合rank或者按层分配,可能在保持极小总占用的同时,给真正重要的层更多自由度。 种子密集型评估。 如果声称"低秩是脆弱而不是空的",那么稀疏评估会系统性误读这个体系。 重点不是说rank 1已经是答案,而是rank 1到4是方法论进步最有可能见效的曲线区域。
一组容易被忽略的数据:低秩并非全场景适用 即便是看起来最有希望的rank 1配置,也只有在特定条件下才稳定: rank=1, batch=16:平均增益+0.0154,0%负增益风险 rank=1, batch=32:平均增益+0.0112,16.7%负增益风险 rank=1, batch=64:平均增益-0.0012,50%负增益风险 rank=1, batch=128:平均增益-0.0185,66.7%负增益风险 正确的结论不是"极低秩就够了",而是"低秩LoRA能在有利条件下捕获有用的RL更新,但安全边际非常窄"。
大Batch买的是天花板,不是效率
如果只看batch维度的平均:
batch=16:平均增益+0.0645
batch=32:+0.0683
batch=64:+0.0747
batch=128:+0.0760
孤立看,大batch似乎严格更好。但加入token成本就完全不一样了:
训练token从batch=16的48M升到batch=128的285M
token效率从0.001344降到0.000267
负增益风险从0%升到11.1%
从batch=16到batch=128,多买了约+1.15分的平均增益,但花了将近6倍的token,还引入了可见的下行风险。
这是预算决策,而不是自动升级。
One More Thing
回到最初那个数字:0.03%参数。
这个数字有意思,不是因为它适合做标题,而是因为它指向了一个更便宜的研究循环。
一个还不完全可靠的微小adapter,可能比一个仅仅"够用"的更大adapter更重要——只要前者指向一条更可扩展的路径。
操作层面的好处会快速累积:更便宜的run、更轻的存储、更容易管理的checkpoint、更多算力可以花在真正降低不确定性的RL环节上。它还提高了在固定硬件下探索更大基座模型的可行性。
最重要的是,它改变了你能尝试多少次。
脆弱的体系通常不是靠一次幸运种子变可靠的——它们是通过持续迭代变可靠的:种子密集评估、更好的初始化、更干净的优化、更好的方差控制、更深思熟虑的参数分配。
如果scaling down让每次尝试更便宜,就更容易跑出低秩体系所需要的那些重复实验。
低秩LoRA不仅是效率目标,可能也是方法论加速的载体。
Mind Lab是一家专注于"经验智能"(Experiential Intelligence)的研究实验室,核心成员来自OpenAI、DeepMind、Seed,学术背景横跨清华、MIT、Cornell,发表200+篇论文,被引30,000+次。 回顾这个团队最近的工作节奏: 2025年底:全球首个万亿参数LoRA-RL训练,GPU消耗直降90%,技术获NVIDIA Megatron-Bridge和Seed verl官方合并 2026年初:提出Context Learning范式,把临时上下文增益永久写进模型参数 2026年4月:完成GLM5/GLM5.1的全栈LoRA训练支持 2026年4月:发布216次实验的LoRA rank scaling研究,重新定义低秩研究议程 每一步都在追同一件事——让大模型从真实使用中持续成长,让研究本身变得更便宜、更高频、更可复现。 他们的Slogan没变: Real intelligence learns from real experience. 真正的智能源于真实的体验。 这次的研究只是把这句话又往前推了一小步:真正有价值的研究增长,常常来自反方向。
参考链接: [1] Mind Lab Blog: macaron.im/mindlab/res… [2] LoRA原论文: arxiv.org/abs/2106.09… [3] Qwen3 Technical Report: qwenlm.github.io/