美团发布基于 N-gram 全新模型:嵌入扩展新范式,实现轻量化 MoE 高效进化

0 阅读9分钟

美团发布基于 N-gram 全新模型:嵌入扩展新范式,实现轻量化 MoE 高效进化

在大语言模型向稀疏化、高效化演进的关键阶段,美团 LongCat 团队正式推出全新模型 LongCat-Flash-Lite,以 N-gram 嵌入技术为核心,创新提出嵌入扩展新范式,打破传统 MoE(混合专家)架构“堆专家”的固有瓶颈,实现了轻量化 MoE 的高效进化,为大模型的低成本、高性能部署提供了全新解决方案。

一、行业痛点:传统 MoE 架构的效能困局

当前,混合专家(MoE)架构已成为大语言模型稀疏缩放的主流选择,其核心逻辑是通过增加专家模块数量来提升模型能力。但随着专家数量的持续增加,行业普遍面临两大核心痛点:一是边际收益递减,新增专家带来的能力提升逐步放缓,难以实现效能同步增长;二是系统开销激增,专家模块间的通信与调度成本大幅上升,导致推理效率下降、部署成本高企,制约了大模型在实际场景中的规模化应用。

针对这一困局,美团 LongCat 团队经过全面的分析与实验发现,嵌入扩展相比专家扩展能获得更优的帕累托前沿——即在特定条件下,通过扩展嵌入层参数,可在更低的系统开销下实现更优的模型性能,为 MoE 架构的高效进化提供了全新突破口。

二、核心创新:N-gram 嵌入引领嵌入扩展新范式

LongCat-Flash-Lite 作为美团全新推出的轻量化 MoE 模型,总参数量达 685 亿,但其每次推理仅需激活 29 亿~45 亿参数,核心优势就在于其创新的 N-gram 嵌入架构与嵌入扩展范式,从底层重构了模型的参数分配与语义捕获逻辑。

(一)N-gram 嵌入层:精准捕获局部上下文语义

N-gram 嵌入层的核心作用的是强化模型对局部上下文语义的理解精度,其核心逻辑是通过哈希函数,将当前 token 及其前序 N-1 个 token 构成的序列映射为一个整体的 N-gram 嵌入向量,再与该 token 的基础嵌入向量融合,实现语义信息的深度挖掘。

举个通俗的例子,当模型处理“打开终端输入命令”这一语句时,传统嵌入方式可能会将“打开”“终端”“命令”拆分为独立语义单元,易产生理解偏差;而 N-gram 嵌入能将整个短语作为一个整体进行语义映射,精准锁定“编程操作”这一场景,大幅提升语义理解的准确性与针对性。

(二)抗冲突与信号增强:保障嵌入层效能最大化

N-gram 嵌入在实际应用中面临的关键挑战是哈希冲突——即不同的 N-gram 序列可能被映射到同一个嵌入向量,影响语义表达的唯一性。为此,LongCat 团队设计了双重抗冲突方案,确保嵌入层效能稳定输出:

  1. 子表分解与线性投影:将大型 N-gram 嵌入表拆分为多个子表,并对每个子表分别进行线性投影变换,大幅降低哈希碰撞的概率;

  2. 词汇表与嵌入放大优化:精准设计 N-gram 嵌入表的词汇表大小,避开易产生碰撞的尺寸区间;同时引入嵌入放大技术,通过添加缩放因子或层归一化,确保嵌入层的语义信号在深层网络的残差连接中不被注意力模块输出淹没,保障其在整个前向传播过程中的贡献度。

(三)参数智能分配:重构 MoE 效能基线

LongCat-Flash-Lite 打破了传统 MoE 优先分配参数给专家模块的惯例,将 31.4B 参数(占总参数的 46%)高效投入 N-gram 嵌入层,形成了“嵌入为主、专家为辅”的参数分配新模式。这一设计带来两大核心优势:

  • 降低系统开销:相较于单纯增加专家数量,嵌入层 O(1) 的查找复杂度可避免参数扩容带来的计算线性增长,同时减少专家模块间的通信与调度开销;

  • 提升稀疏效能:在达到高模型稀疏度的同时,无需依赖更多专家模块,实现了“低激活参、高性能”的效能平衡。

三、系统级优化:三重升级实现极致推理效率

为将 N-gram 嵌入的理论优势转化为实际推理性能,美团 LongCat 团队在系统层面实施了三重核心优化,构建了从模型结构到运行时系统的垂直优化体系,让轻量化 MoE 的高效性落地可行。

(一)专用缓存与内核优化:降低 I/O 与计算延迟

团队借鉴 KV Cache 的设计思路,打造了 N-gram Cache 专用缓存机制,直接在 GPU 设备上管理 N-gram ID,与推理框架的动态调度逻辑实现低开销同步,大幅降低嵌入查找的 I/O 延迟。同时,通过定制 CUDA 内核及广泛的内核融合技术,将 AllReduce、Residual Add、RMSNorm 等操作融合执行,结合 PDL(Programmatic Dependent Launch)技术,提升 GPU 占用率,减少内核启动间隙,进一步压缩计算延迟。

(二)推测解码协同:放大稀疏激活优势

将 N-gram 嵌入的稀疏激活特性与推测解码策略深度协同,通过 3 步投机推理扩大实际批次大小,充分利用低激活参的特性提升吞吐量。同时,针对草案模型(draft model)延迟敏感的特点,让其使用常规嵌入层规避 N-gram 查找的计算开销,实现推理性能的进一步突破。

(三)长上下文支持:适配复杂场景需求

依托 YARN 技术,LongCat-Flash-Lite 可支持最长 256K 上下文窗口,能够高效处理长文档分析、大规模代码解读、多轮复杂对话等场景,进一步拓宽了轻量化 MoE 模型的应用边界。

经过多维度优化,LongCat-Flash-Lite 在典型负载下(输入 4K,输出 1K),其 API 可提供 500-700 token/s 的生成速度,推理效率远超同规模传统 MoE 模型,实现了“轻量不轻质”的推理体验。

四、性能实测:关键场景表现卓越,综合能力均衡

LongCat-Flash-Lite 凭借创新的嵌入扩展范式与系统级优化,在智能体工具使用、编程任务等关键场景中展现出领先优势,同时在通用知识与推理能力上保持均衡表现,用实际数据验证了嵌入扩展范式的有效性。

(一)智能体工具使用:行业场景高分领先

在评估复杂工具使用与工作流执行的基准测试中,模型表现突出:

  • τ²-Bench 行业场景:在电信(72.8 分)、零售(73.1 分)、航空(58.0 分)三大子场景中均取得最高分,证明其能精准理解并执行涉及专业工具的复杂指令;

  • VitaBench 通用场景:以 7.0 分领先于同类对比模型,验证了其在多样化现实任务中的实用工具调用能力。

(二)编程任务:全链路能力碾压同级

在衡量编程实用技能的核心基准测试中,LongCat-Flash-Lite 展现出强劲的问题解决能力,成为其核心优势场景:

  • 代码修复(SWE-Bench):54.4% 的准确率显著领先同规模对比模型,能有效处理真实软件工程中的 bug 修复、特性实现等任务;

  • 终端命令执行(TerminalBench):33.75 分的成绩远超同类模型 15-20 分的常规区间,体现了对开发者工作流中命令行操作的高精度理解;

  • 多语言代码生成(SWE-Bench Multilingual):38.10% 的准确率展现了跨编程语言与软件生态的优秀泛化能力。

(三)通用能力:均衡稳健,中文优势明显

在综合能力评估中,模型保持了与自身规模相匹配的均衡表现,尤其在中文理解场景中具备突出优势:

  • 综合知识(MMLU):85.52 分,与 Gemini 2.5 Flash-Lite(84.68 分)相当;

  • 中文理解(C-Eval & CMMLU):分别取得 86.55 分与 82.48 分,适配中文场景的各类应用需求;

  • 复杂推理与数学推理:在 MMLU-Pro、GPQA-Diamond 等复杂推理基准中表现稳健,在基础数学与竞赛级数学问题上均能实现高效多步推演。

五、行业意义:开源赋能,重构大模型高效进化路径

LongCat-Flash-Lite 的发布,不仅是美团在大模型领域的一次重要技术突破,更打破了行业内“更多专家=更强能力”的惯性思维,为大模型的高效进化提供了全新路径——即通过 N-gram 嵌入与系统级优化的协同设计,用更少的动态激活参数,实现与更大规模模型比肩的竞争力,真正实现了轻量化与高性能的平衡。

技术的生命力源于开放与协作。为推动嵌入扩展范式的普及与创新,美团已全面开源 LongCat-Flash-Lite 的模型权重及技术细节,采用 MIT 协议,支持 Hugging Face 生态无缝集成,诚邀全球开发者体验、研究与共建,共同探索大模型高效部署的更多可能。

从实际应用价值来看,这款模型的轻量化特性的与高效推理能力,能够大幅降低大模型的部署成本与门槛,尤其适合智能体开发、代码辅助、长文档处理等高频场景,为美团自身业务赋能的同时,也能为互联网、零售、电信等多个行业的数字化转型提供强大支撑。

结语

美团基于 N-gram 的全新模型,以嵌入扩展新范式打破了传统 MoE 架构的效能困局,实现了轻量化 MoE 的高效进化,用实际成果证明了“嵌入扩展优于专家扩展”的核心价值。在大模型向规模化、实用化深度演进的今天,这种“重嵌入、轻专家”的创新思路,或将引领大模型稀疏化发展的新趋势,推动更多低成本、高性能的大模型落地应用,让 AI 技术真正赋能产业、服务生活。

作者:Smoothcloud 润云