LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台，深度绑定高性能弹性算力，支持模型复现、训练、推理全流程，以按需计费、低价高效破解高端算力紧缺与成本高昂难题；同步Arxiv前沿论文并提供翻译、导读、分析服务，支持各类大模型一键复现与数据集微调，对接孵化资源助力科研成果转化；同时搭载多样化AI在线课程，实现理论学习与代码实操同步推进，全方位覆盖AI研发、科研创新与技能学习全场景需求。

Lab4AI大模型实验室官网链接：www.lab4ai.cn/arxiv?utm_s…

作者信息

美团 LongCat 团队 (Meituan LongCat Team)

研究背景

当前，下一代令牌预测（NTP）范式通过离散自回归建模推动了大型语言模型的成功。然而，当代多模态系统仍以语言为中心，通常将非语言模态（如视觉和音频）视为外部附件，导致架构碎片化和集成不佳。虽然离散自回归建模在音频领域取得了显著进展，但将其扩展到视觉领域在概念上简单，在实际操作中却非易事。视觉信号是高维且连续的，将其压缩到有限的离散码本中不可避免地会引入信息丢失，导致离散视觉建模在理解和生成任务上存在性能天花板。现有研究面临双重瓶颈：视觉表征的容量限制以及离散化带来的信息丢失。

研究目的

本研究旨在超越语言加辅助模态的范式，迈向原生多模态建模。具体目标包括：

提出离散原生自回归（DiNA）框架，将多模态信息表示在共享的离散空间中，实现一致且原则性的自回归建模；
开发离散原生任意分辨率视觉Transformer（dNaViT），在任意分辨率下执行分词和去分词，将连续视觉信号转换为分层离散令牌；
构建LongCat-Next模型，在单一自回归目标下以最少的模态特定设计处理文本、视觉和音频；
解决离散视觉建模在理解任务上的长期性能上限，并提供统一方法有效调和理解与生成之间的冲突。

核心贡献

离散原生自回归范式（DiNA）：引入DiNA统一框架，通过将所有模态表示在共享离散令牌空间内，将下一代令牌预测从语言扩展到原生多模态。该范式使多模态建模与标准仅解码器架构保持一致，能够在单一模型中通过一致的自回归目标处理文本、视觉和音频。
离散原生任意分辨率视觉Transformer（dNaViT）：提出dNaViT作为统一接口，利用语义对齐编码器（SAE）和残差向量量化（RVQ）构建分层离散令牌，保留高级语义和细粒度细节。该设计支持动态分词和去分词，跨越任意分辨率，且与现有大语言模型即插即用。
统一模型中的卓越表现：LongCat-Next克服了离散视觉建模的长期瓶颈，在保持强任意分辨率生成质量的同时，实现了与专用视觉理解模型相媲美的竞争力。在DiNA框架下，视觉理解和生成被重构为同一预测过程的两个实例，有效调和了传统上竞争的目标。

研究方法

研究方法基于离散自回归基础，采用模态特定的分词器-去分词器对和模态无关的混合专家（MoE）骨干网络（LongCat-Flash-Lite A3B）。视觉分词器dNaViT采用语义对齐编码器（SAE）提取特征，结合残差向量量化（RVQ）进行分层离散化，并通过像素解码器和流匹配细化器进行重建。音频分词器使用Whisper编码器和RVQ。训练流程分为分词器训练和原生多模态训练两个阶段。原生多模态训练包括预对齐、预训练、中期训练和监督微调（SFT），总训练量超过2万亿个令牌。数据来源涵盖大规模网络图像文本对、合成数据、针对OCR、STEM、GUI和音频的精选数据集，并经过严格的数据清洗、过滤和重平衡处理。

研究结果

实验结果表明，LongCat-Next在视觉理解方面表现优异，在MathVista、MathVision、VisuLogic等基准上超越了专用MLLM模型（如InternVL 3.5-A3B-Flash和Qwen3-VL-A3B）。在视觉生成方面，该模型超越了现有的统一模型（如Qwen3-Omni），并在高保真图像生成（特别是文本渲染）方面与专用模型（如Flux-dev）具有竞争力。在音频任务中，LongCat-Next在自动语音识别（ASR）、文本转语音（TTS）和音频理解方面均达到最先进水平，超越了Gemini 3.1 Flash-Lite preview和MiMo-Audio等模型。此外，模型在文本能力上未出现“多模态税”现象，在智能体工具使用（如SWE-Bench）和编码方面表现出色。消融实验表明，随着数据规模扩大，离散建模的性能可以逼近连续模型。

总结与展望

本研究通过LongCat-Next探索了语言风格离散自回归建模自然扩展到视觉和音频的可能性。结果表明，通过精心设计的分词器和训练策略，连续感知信号可以被有效离散化，同时保持强大的能力。作为迈向原生多模态的一步，该工作为构建真正统一的多模态基础模型提供了新的视角。局限性在于当前版本的视觉分词器主要关注语义解码一致性而非像素保真度，且评估主要集中在图像到文本和文本到图像方向。未来工作将致力于优化分词器以更好地满足下一代版本目标，并扩展到任意到任意生成和交错多模态推理，探索数据规模与表征学习的协同效应。