美团LongCat-Next：用"视觉分词器"重新定义多模态模型GPT为什么这么强？一个关键答案是：下一token预测（

Cute Totoro AI Robot

GPT为什么这么强？一个关键答案是：下一token预测（Next Token Prediction）。

把语言切成一个个离散的符号，然后让模型学会预测下一个。这个简单到不能再简单的想法，撑起了整个大语言模型的辉煌时代。

但问题来了——语言天生就是离散的，一张图片、一段声音却不是。它们是连续的、稠密的、高维的。所以今天的多模态模型，大多采用了"打补丁"的思路：视觉编码器外挂一个语言模型，中间用适配器桥接，再加点双向注意力、3D位置编码什么的。

美团LongCat团队最近开源的 LongCat-Next，选择了一条截然不同的路：把图像和声音也变成离散token，让所有模态在同一个规则下"说话"。

多模态的"补丁困境"

看看目前主流的多模态架构，你会发现一个有趣的现象：

视觉理解做得好的模型，图像生成往往拉胯；生成效果惊艳的，理解能力又差点意思。想两头都占？那就得堆参数、加模块，把模型变得越来越臃肿。

更麻烦的是"灾难性遗忘"——给语言模型加上视觉能力后，它写代码的本事可能就退化了。这就像一个人学了画画，反而忘了怎么写字，显然不是我们想要的。

问题的根源在哪？架构不统一。

视觉编码器输出的是连续特征向量，语言模型处理的是离散token ID。两种完全不同的"语言"，被迫挤在同一个模型里工作。为了弥合这个鸿沟，研究者们不得不引入各种复杂的适配机制：Q-Former、线性投影、跨模态注意力……补丁打多了，模型就变得又重又脆。

DiNA：回归最朴素的自回归

LongCat-Next的核心思想可以用一句话概括：如果视觉和听觉也能像语言一样被"分词"，那就不需要任何补丁了。

他们把这个范式叫做 DiNA（Discrete Native Autoregressive）——离散原生自回归。听起来很学术，但逻辑其实非常朴素：

所有信号都转成离散token
所有任务都变成"预测下一个token"
一套架构、一个目标，搞定一切

这和GPT处理语言的方式完全一致。区别只在于，你需要一个足够好的"分词器"，把图像变成一串有意义的ID。

dNaViT：给图像"分词"

这就是 dNaViT 登场的时候。

它的全称是"离散原生分辨率视觉Transformer"。你可以把它理解为一个视觉版的语言分词器：把一张图片"读"进去，吐出一串离散的token ID；反过来，给它一串ID，它也能"写"出一张图。

但给图像"分词"比给文字分词难多了。

文字是天然的离散符号——"hello"就是5个字符，切分一目了然。但图像呢？一个像素算一个"词"？那一张高清图得有几百万个"词"，模型根本处理不过来。压缩吧，又会丢掉大量信息，生成出来的图糊成一团。

LongCat-Next的解决方案很有意思，它用了三招：

第一招：语义对齐编码器（SAE）

用一个在大规模图文数据上预训练好的视觉编码器（他们选了Qwen2.5-ViT），先把图像"理解"一遍。这个编码器见过数以亿计的图文对，知道哪些视觉特征是"有意义"的，哪些是无关紧要的噪点。

打个比方，就像请了一个翻译官，先把图像的"意思"提炼出来，而不是机械地逐像素记录。

第二招：残差向量量化（RVQ）

接下来是离散化。LongCat-Next用了残差向量量化，这是一个非常巧妙的设计。

假设原始图像用一个向量表示，第一次量化会有误差。没关系，把这个误差记下来，再量化一次。第二次还有误差？继续记，继续量化……就这样一层层"逼近"原始信息。

这就像画素描：先勾轮廓，再添细节，最后点睛。每一层都在弥补上一层的不足，最终用8层码本实现了28倍压缩——一张图只占原来1/28的信息量，但关键细节都保留着。

第三招：双轨解码器

把token还原成图像时，LongCat-Next用了两个"画家"：

一个是ViT像素解码器，负责把整体布局和结构画出来，保证全局一致性；另一个是Diffusion细化器，专门补细节——字迹边缘锐不锐、纹理对不对、光影自然不自然。

先出粗稿，再精修。这个分工让生成的图像既结构稳定，又细节丰富。

实测效果如何？

论文给了不少数据，我挑几个关键的：

文档理解能力：在OmniDocBench-EN和CharXivRQ这两个榜单上，LongCat-Next（3B激活参数）全面超越了同级别的Qwen3-Omni-A3B。这意味着它读图表、看文档的能力很强。

视觉理解：和专门做视觉的QwenVL相比，表现相当。关键是，它同时还能生成图像、合成语音。

代码能力：SWE-Bench得分43.0。这意味着给模型加了一堆多模态能力后，它写代码的本事并没有退化——灾难性遗忘的问题被很好地解决了。

图像生成：论文特别强调了文字渲染能力。这在多模态生成里是个老大难问题——生成的图里文字经常乱码。LongCat-Next因为离散token本身就编码了排版和结构信息，所以文字生成特别稳定。

为什么说这是"做减法"？

多模态领域这些年的主流思路，一直是"做加法"：加视觉编码器、加适配器、加多任务头、加模态特定的MoE……模块越堆越多，架构越来越复杂。

LongCat-Next反其道而行：用统一的离散token空间，把所有模态拉回到同一个起跑线上。

图像是token，音频是token，文字也是token。处理方式一模一样——预测下一个。不需要3D位置编码，不需要双向注意力，不需要复杂的模态间适配。架构简洁了，训练也更统一了。

说实话，这个思路并不新鲜。Chameleon、Janus都尝试过类似的离散化路线，但始终没能把性能做到和连续特征方案平起平坐。LongCat-Next的突破在于，它证明了离散化这条路是能跑通的——只要你舍得在"分词器"上花心思。

这给了我们一个启示：也许多模态的终极形态，不是靠堆砌外挂模块，而是找到一种更底层的统一。

论文地址：arxiv.org/abs/2603.27…

GitHub：github.com/meituan-lon…

在线体验：longcat.chat/longcat-nex…

美团这次的开源很有诚意——模型权重、技术报告、推理代码全放出来了。对于想研究原生多模态架构的开发者来说，这是一个难得的学习样本。