美团LongCat-Next:用"视觉分词器"重新定义多模态模型

0 阅读6分钟

Cute Totoro AI Robot

GPT为什么这么强?一个关键答案是:下一token预测(Next Token Prediction)

把语言切成一个个离散的符号,然后让模型学会预测下一个。这个简单到不能再简单的想法,撑起了整个大语言模型的辉煌时代。

但问题来了——语言天生就是离散的,一张图片、一段声音却不是。它们是连续的、稠密的、高维的。所以今天的多模态模型,大多采用了"打补丁"的思路:视觉编码器外挂一个语言模型,中间用适配器桥接,再加点双向注意力、3D位置编码什么的。

美团LongCat团队最近开源的 LongCat-Next,选择了一条截然不同的路:把图像和声音也变成离散token,让所有模态在同一个规则下"说话"

多模态的"补丁困境"

看看目前主流的多模态架构,你会发现一个有趣的现象:

视觉理解做得好的模型,图像生成往往拉胯;生成效果惊艳的,理解能力又差点意思。想两头都占?那就得堆参数、加模块,把模型变得越来越臃肿。

更麻烦的是"灾难性遗忘"——给语言模型加上视觉能力后,它写代码的本事可能就退化了。这就像一个人学了画画,反而忘了怎么写字,显然不是我们想要的。

问题的根源在哪?架构不统一

视觉编码器输出的是连续特征向量,语言模型处理的是离散token ID。两种完全不同的"语言",被迫挤在同一个模型里工作。为了弥合这个鸿沟,研究者们不得不引入各种复杂的适配机制:Q-Former、线性投影、跨模态注意力……补丁打多了,模型就变得又重又脆。

DiNA:回归最朴素的自回归

LongCat-Next的核心思想可以用一句话概括:如果视觉和听觉也能像语言一样被"分词",那就不需要任何补丁了。

他们把这个范式叫做 DiNA(Discrete Native Autoregressive)——离散原生自回归。听起来很学术,但逻辑其实非常朴素:

  1. 所有信号都转成离散token
  2. 所有任务都变成"预测下一个token"
  3. 一套架构、一个目标,搞定一切

这和GPT处理语言的方式完全一致。区别只在于,你需要一个足够好的"分词器",把图像变成一串有意义的ID。

dNaViT:给图像"分词"

这就是 dNaViT 登场的时候。

它的全称是"离散原生分辨率视觉Transformer"。你可以把它理解为一个视觉版的语言分词器:把一张图片"读"进去,吐出一串离散的token ID;反过来,给它一串ID,它也能"写"出一张图。

但给图像"分词"比给文字分词难多了。

文字是天然的离散符号——"hello"就是5个字符,切分一目了然。但图像呢?一个像素算一个"词"?那一张高清图得有几百万个"词",模型根本处理不过来。压缩吧,又会丢掉大量信息,生成出来的图糊成一团。

LongCat-Next的解决方案很有意思,它用了三招:

第一招:语义对齐编码器(SAE)

用一个在大规模图文数据上预训练好的视觉编码器(他们选了Qwen2.5-ViT),先把图像"理解"一遍。这个编码器见过数以亿计的图文对,知道哪些视觉特征是"有意义"的,哪些是无关紧要的噪点。

打个比方,就像请了一个翻译官,先把图像的"意思"提炼出来,而不是机械地逐像素记录。

第二招:残差向量量化(RVQ)

接下来是离散化。LongCat-Next用了残差向量量化,这是一个非常巧妙的设计。

假设原始图像用一个向量表示,第一次量化会有误差。没关系,把这个误差记下来,再量化一次。第二次还有误差?继续记,继续量化……就这样一层层"逼近"原始信息。

这就像画素描:先勾轮廓,再添细节,最后点睛。每一层都在弥补上一层的不足,最终用8层码本实现了28倍压缩——一张图只占原来1/28的信息量,但关键细节都保留着。

第三招:双轨解码器

把token还原成图像时,LongCat-Next用了两个"画家":

一个是ViT像素解码器,负责把整体布局和结构画出来,保证全局一致性;另一个是Diffusion细化器,专门补细节——字迹边缘锐不锐、纹理对不对、光影自然不自然。

先出粗稿,再精修。这个分工让生成的图像既结构稳定,又细节丰富。

实测效果如何?

论文给了不少数据,我挑几个关键的:

文档理解能力:在OmniDocBench-EN和CharXivRQ这两个榜单上,LongCat-Next(3B激活参数)全面超越了同级别的Qwen3-Omni-A3B。这意味着它读图表、看文档的能力很强。

视觉理解:和专门做视觉的QwenVL相比,表现相当。关键是,它同时还能生成图像、合成语音。

代码能力:SWE-Bench得分43.0。这意味着给模型加了一堆多模态能力后,它写代码的本事并没有退化——灾难性遗忘的问题被很好地解决了。

图像生成:论文特别强调了文字渲染能力。这在多模态生成里是个老大难问题——生成的图里文字经常乱码。LongCat-Next因为离散token本身就编码了排版和结构信息,所以文字生成特别稳定。

为什么说这是"做减法"?

多模态领域这些年的主流思路,一直是"做加法":加视觉编码器、加适配器、加多任务头、加模态特定的MoE……模块越堆越多,架构越来越复杂。

LongCat-Next反其道而行:用统一的离散token空间,把所有模态拉回到同一个起跑线上

图像是token,音频是token,文字也是token。处理方式一模一样——预测下一个。不需要3D位置编码,不需要双向注意力,不需要复杂的模态间适配。架构简洁了,训练也更统一了。

说实话,这个思路并不新鲜。Chameleon、Janus都尝试过类似的离散化路线,但始终没能把性能做到和连续特征方案平起平坐。LongCat-Next的突破在于,它证明了离散化这条路是能跑通的——只要你舍得在"分词器"上花心思。

这给了我们一个启示:也许多模态的终极形态,不是靠堆砌外挂模块,而是找到一种更底层的统一


论文地址:arxiv.org/abs/2603.27…

GitHub:github.com/meituan-lon…

在线体验:longcat.chat/longcat-nex…


美团这次的开源很有诚意——模型权重、技术报告、推理代码全放出来了。对于想研究原生多模态架构的开发者来说,这是一个难得的学习样本。