LLM为什么都是decoder-only架构,而不是encoder-only

407 阅读5分钟

今天在知乎上面看到了一位高赞网友的面试经历:

图片

想和大家分享一下,下面是他的阐述:

面试官:“为什么现在的大模型大都是decoder-only架构?"

懵逼的我TAT:“呃呃,和encoder-only相比,它既能做理解也能做生成,预训练的数据量和参数量上去之后,GPT这样的decoder-only模型的zero-shot泛化能力Q很好,而BERTQ这样的encoder-only模型一般还需要少量的下游标注数据来fine-tuneQ才能得到较好的性能。"

面试官礼貌地说有点道理,然后开始发威:“那T5这种encoder-decoder也能兼顾理解和生成啊?像FLAN那样instruction tuning之后zero-shot性能也不错呢?为啥现在几十几百B参数量的大模型基本都是decoder-only呢?"

更加慌张的我QaQ:“呃呃,确实有encoder-decoder和PrefixLM这些其他架构,现在大家对哪个更好好像还没有统一的定论,但到几十B这个规模还没人进行过系统的比较,大概是OpenA1先把decoder-only做work了,形成了轨迹依赖,大家都跟上了,之后或许会有更系统的探索。"

当时是面暑期实习,面试官还是放过了我,但我当时的内心是这样的:

图片

现在回头再看,当时那个答案堪称双输局——既漏掉了关键技术坐标(像T5这种标杆性的encoder-decoder架构压根没cue,GLM、XLNET这些当红炸子鸡也选择性失明),更错过了灵魂拷问:都说decoder-only是版本答案,可这玩意究竟强在哪?

这个学界没标准答案、业界却争得头破血流的核心议题,直接杀穿24届算法岗修罗场,光我这趟秋招马拉松就被五六个面试官连环追杀,从面试官恨铁不成钢的眼神和知乎技术区神仙打架的帖子缝里,硬是整理出这套相对完整的应对方案,各位赶due人且看且珍惜:

常见架构类型可总结为四类:采用双向注意力机制的encoder-only架构(如BERT)、支持序列到序列建模的encoder-decoder架构(如T5/BART)、基于自回归建模的decoder-only架构(如GPT系列)、以及通过注意力掩码创新实现混合建模的Prefix-LM架构(如UNILM,其特点是在前缀部分使用双向注意力,后续生成区域维持因果掩码机制)。

通过下图可直观理解架构差异:

图片

在模型选择时可优先排除encoder-only架构:因其基于掩码语言建模预训练,生成任务存在结构适配性问题,且在自然语言理解任务中通常依赖带标注数据进行微调。

反观decoder-only架构通过下一词预测预训练,同时具备文本理解与生成能力,在零样本/小样本场景下表现出更强的任务泛化性。

我们需要讨论的是,为啥引入了一部分双向attentiong的encoder-decoder和Prefix-LM没有被大部分大模型工作采用?(它们也能兼顾理解和生成,泛化性能也不错)

图片

铺垫完了,相信这时候面试官已经能感受到你对各种架构是有基本了解的,不至于太菜,接下来是主干回答:

第一,用过去研究的经验说话,decoder-only的泛化性能更好: ICML22的.在最大5B参数量、170B token数据量的规模下做了一系列实验,发现用next token prediction预训练的decoderonly模型在各种下游任务上zero-shot泛化性能最好;

第一,以学界共识为锚点,实证decoder-only架构的泛化优势。ICML22论文《What Language Model Architecture and Pretraining Objective Works Best for Zero-Shot Generalization?》

通过大规模实验(5B参数/170B tokens)揭示核心规律:采用next token预测目标的纯解码器模型在跨领域任务迁移中表现最佳。

同时如文献[2]与@Minimum深度解析所言的第3点,此类架构在上下文学习(in-context learning)场景下展现出更强的少样本适应能力,其prompt响应灵敏度显著优于其他范式。

图片

第二,拆解技术本质,剖析性能优势的内在机理。学界大咖们从多维视角给出关键洞见:

\1. @苏剑林 指出双向注意力易陷入低秩坍缩,而因果掩码强制生成下三角满秩矩阵,赋予更强的表征空间覆盖能力;

\2. @yili 论证预训练难度与模型上限的正相关关系——受限的上下文窗口迫使解码器构建更鲁棒的特征抽象,在大数据与大模型场景下突破性能瓶颈;

\3. @mimimumu 揭示prompt对模型参数的隐式微调机制,由于解码层可直接捕获交互信号,其上下文学习效率相较encoder-decoder框架提升显著。

图片

此外多位专家强调因果注意力的隐性位置编码特性[3],其天然打破Transformer的位置不变性约束,而双向架构即便引入显式位置编码,仍存在语序敏感度缺陷。

第三,聚焦工业落地,解码器架构的工程红利不容忽视。其KV-Cache的内存复用机制在多轮对话场景具备显著推理优势,而encoder-decoder架构因需动态维护前缀状态导致计算开销陡增,这在长上下文业务中尤为关键。

第四,正视技术路径依赖的客观影响。OpenAI凭借decoder-only范式开辟了大模型工业化落地的可行路径,后续跟进者受限于研发成本与生态适配(如Megatron、FlashAttention对因果注意力的深度优化),往往选择架构延续而非颠覆重构。

图片

但需清醒认知:当前主流结论建立于有限参数规模(如百亿量级),GLM、XLNet等非对称架构已在部分场景展现潜力。若贵司有意探索前沿架构创新,本人愿与团队共同开展业务适配性研究(战术挑眉)。

相信这一套回答下来,原本可能昏昏欲睡的面试官会精神一振奋,大概率给你痛快通过!