大语言模型中长度表征机制解析
大型语言模型(LLMs)通过海量文本数据学习展现出卓越的多任务能力。尽管LLMs能够控制输出序列长度(尤其在指令导向场景中),但其内部控制机制尚未被深入探索。
本研究提供实证证据,揭示输出序列长度信息如何在LLMs内部表征中编码。具体发现表明:
- 多头注意力机制对输出长度确定具有关键作用,且能以解耦方式调节
- 通过缩放模型内特定隐藏单元,可在保持生成文本信息量的同时控制输出序列长度,说明长度信息与语义信息存在部分解耦
- 当提示更聚焦长度属性时,部分隐藏单元激活程度增强,反映模型对该属性的内部感知
研究结果表明,LLMs已学习到无需外部控制的、鲁棒且自适应的输出长度内部调控机制。