加州大学圣迭戈分校发布了一致性大语言模型(CLLMs),这是一种新型并行解码器家族,能够在每个推理步骤高效地解码 n 个 token 序列,大幅降低推理延迟。实验表明,CLLMs 在保持生成质量的同时,生成速度提升 2.4 倍到 3.4 倍,与 Medusa2 和 Eagle 等快速推理技术相当甚至更优,且无需额外的内存开销。这一过程模仿了人类先在脑中形成完整句子再逐词表达的认知过程,可通过微调预训练LLM高效学习。
hao-ai-lab.github.io
展开
江昪于2024-05-13 09:41发布的图片
3