实时性视觉语言模型MiniDrive：使用多帧图像给语言模型为自动驾驶文本标记实时性视觉语言模型MiniDrive：使用

实时性视觉语言模型MiniDrive：使用多帧图像给语言模型为自动驾驶文本标记

Abstract

视觉-语言模型（VLMs）作为自动驾驶中的通用端到端模型，通过问答交互执行预测、规划和感知等子任务。然而，大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型（LLMs），使其在现实场景和实时应用中难以部署。同时，大多数现有的VLMs缺乏处理多张图像的能力，难以适应自动驾驶中的多摄像头感知。为了解决这些问题，我们提出了一个名为MiniDrive的全新框架，该框架结合了我们提出的特征工程专家混合（FE-MoE）模块和动态指令适配器（DI-Adapter）。FE-MoE能够有效地将2D特征映射为视觉标记嵌入，然后输入到语言模型中。DI-Adapter允许视觉标记嵌入随指令文本嵌入动态变化，从而解决了以往方法中同一图像的视觉标记嵌入静态化的问题。与之前的工作相比，MiniDrive在参数大小、浮点运算和响应效率方面达到了最先进的性能，其中最小版本仅包含83M参数。

代码地址：github.com/EMZucas/min…

欢迎加入自动驾驶实战群

Introduction

随着大规模预训练技术的发展，视觉-语言模型（VLMs）凭借其强大的视觉推理能力，成为各领域视觉问答任务的主要选择。同样，在自动驾驶领域，基于VLMs的问答推理有望成为驾驶员与车辆互动的新方法。这种自然语言的问答方式增强了自动驾驶的可解释性。VLMs将自动驾驶过程中的感知、预测和决策统一整合到一个模型中，成为解决自动驾驶各类子任务的端到端通用模型。

VLMs主要由两个核心模块组成：视觉编码器和用于文本生成的大型语言模型（LLM）。这意味着部署VLMs需要高昂的计算成本和硬件资源。在自动驾驶系统中，如何开发消耗资源更少、计算成本更低且响应速度更快的VLMs，成为实际部署中的关键考虑。然而，目前在自动驾驶领域的多模态大模型研究主要集中在具有超过十亿参数的模型上，其中的视觉编码器依赖于基于Transformer架构的预训练模型，这些模型消耗大量的计算资源和硬件成本，且响应时间较长，使得其难以在实际应用中部署。

为了解决这些挑战，本文提出了一种名为MiniDrive的新型视觉-语言模型。与传统主流的基于Transformer架构的视觉-语言模型不同，MiniDrive并非统一模型。我们采用了基于大卷积核的高效骨干网络模型作为视觉编码器。我们提出了特征工程专家混合（FE-MoE）和动态指令适配器（DI-Adapter），以便在将视觉特征输入到语言模型之前依次处理并获取视觉标记。具体来说，UniRepLKNet捕捉图像的二维特征，FE-MoE处理多个二维特征，将它们映射为文本标记，再输入到语言模型中，无需进行逐阶段的跨模态精细对齐训练。

DI-Adapter引入了动态调整机制，使映射的视觉标记能够根据用户的文本指令动态变化，进而有效增强文本和图像之间的跨模态理解。如图1(a)所示，MiniDrive处理多个输入图像和用户指令，生成自然语言的回答。它涵盖了自动驾驶中最关键的能力，包括感知、规划和预测问答能力。在图1(b)中，我们展示了MiniDrive是一种轻量级的视觉-语言模型，具有极小的参数规模、内存占用和FLOP数。它可以在一台24GB内存的RTX 4090 GPU上完成多个实例的完全训练。例如，MiniDrive224仅有83M参数，FLOP数仅为5.9B，远低于当前用于自动驾驶的视觉-语言模型。在响应性能方面，MiniDrive在问答能力上超越了以往的一系列模型，尤其是在质量上超过了拥有十亿参数的模型。此外，MiniDrive支持单图像和多图像输入。在图1©中，MiniDrive在单图像评估系统CODA-LM（Li et al., 2024）上表现优于开源的7B参数及以上的模型，接近闭源商业模型的表现。

3.Method

MiniDrive 是一个应用于自动驾驶领域的视觉-语言模型，设计用于执行视觉问答任务。它通过接收图像和用户指令文本作为输入，生成文本响应。在本节中，我们首先详细介绍 MiniDrive 的整体框架，接着具体说明各个模块的技术细节和原理，包括视觉编码器、特征工程专家混合（FE-MoE）和动态指令适配器（DI-Adapter）。

3.1 模型架构

图 2(a) 展示了 MiniDrive 的整体结构。在 MiniDrive 中，主要有两个分支：视觉分支和文本分支。在视觉分支中，给定来自自动驾驶车辆的 n 张图像输入到视觉编码器，输入数据的维度为.每张图像获得一组二维深度特征表示.这些特征接着输入 FE-MoE，多个专家将信息在通道维度𝑐上压缩，并在高度ℎ和宽度𝑤上扩展，生成新的二维特征表示。在 FE-MoE 中，门网络（Gate network）决定哪个专家更适合处理每张图像，并为每个专家分配不同的权重值。最后，通过加权和合并新的二维特征表示，生成新的特征集.将展开为,其中长度对应于之前的而维度对应于之前的 ,然后，投影层将映射为结果为.

在文本分支中，用户的自然语言指令通过分词器（Tokenizer）和嵌入层处理，得到文本的标记嵌入,嵌入的文本序列𝑇被用作键（key，k）和值（value，v），而此时的视觉嵌入序列𝑉被用作查询（query，q）。这些输入到 DI 适配器中，计算出新的视觉嵌入序列𝑉1该序列现在包含了文本嵌入𝑇的上下文信息，从而增强了跨模态理解或决策能力。随后，𝑉1通过残差连接与𝑉结合，形成序列,而𝑇则作为处理。拼接后的被用作语言模型的输入。语言模型解码并生成具有最高预测概率的词序列。整个框架高效处理多图像输入信息，动态响应用户查询。

3.2 视觉编码器

如图 2(b) 所示，视觉编码器的主干网络基于大卷积核神经网络 UniRepLKNet，它在多个模态任务中表现出色。它有效利用了大卷积核的特性，在不深入网络层的情况下，提供了宽广的感受野。它在保持高效计算的同时，在多个任务中的表现与当前最先进的技术相当或优于它们。这种通用性和高效性使得该模型在广泛的感知任务中具有潜力。图 3 中展示了 UniRepLKNet 的整体架构。该网络主要由多个顺序连接的 Stage 层组成。每个 Stage 主要由一系列的 Lark 块和 Smak 块构成。在 MiniDrive 中，我们使用 UniRepLKNet 作为视觉网络的主干，在输入图像后，从最终的 Stage n 中获得输出特征图。

3.3 特征工程专家混合模型（FE-MoE）

在图 2(b) 中，我们展示了 FE-MoE 的具体结构，该模型设计用于处理来自多张图像的二维输入特征。每张输入图像对应于视觉编码器输出的特征图.为了高效地进一步处理每张图像的二维特征表示，它们被输入到 FE-MoE 中。首先,𝐹1被用于门控网络（Gate network）以获得对应样本的专家选择权重。门控网络主要由卷积层、最大池化层和线性层组成，如下公式所示：

然后，𝐹1通过每个专家网络，生成新的特征表示,每个专家网络主要由反卷积层、ReLU 层和卷积层组成。反卷积层首先执行初始的上采样映射，增加特征图的宽度和高度维度以扩展信息量，促进后续的映射学习。同时，它减少了原始特征图的通道数，以最小化数据冗余并选择最重要的二维特征表示信息，从而显著简化后续视觉标记的数量。卷积层进一步转化特征，以增强专家的学习能力。公式如下：

其中，𝑐↓表示通道数量的减少，ℎ↑和𝑤↑表示特征图的高度和宽度增加。在这种情况下，𝐹2代表单个专家的输出。假设某图像的第 𝑖个专家的权重为𝑊𝑖，该专家的输出为𝐹𝑖，专家总数为𝑁，则经过 FE-MoE 模型处理后的图像特征 𝑉𝑚𝑜𝑒表示为以下公式：

3.4 动态指令适配器（Dynamic Instruction Adapter）

在以往的视觉-语言模型中，图像表示在输入语言模型之前是固定的，并且与输入语言模型计算之前的各种文本表示相对应。为了使图像表示能够在输入语言模型之前根据不同的文本表示动态变化，从而提高跨模态理解能力，我们引入了动态指令机制，并设计了动态指令适配器。我们使用文本输入序列𝑇作为键（key,𝑘）和值（value, 𝑣），使用图像输入序列𝑉作为查询（query, 𝑞）。通过交叉注意力（cross-attention），我们计算出融合了文本上下文信息的序列𝑉′。公式如下：

通过残差连接将残差通道中的序列与投影层的输出序列相连接，作为输入到语言模型之前的视觉表示。

Experiment

4.1 定量结果

在表 1 中，我们将 MiniDrive 与之前的工作进行了对比，包括 EM-VLM4AD和 Drive-Agent的测试集评估结果。从指标的总体表现来看，尽管 DriveLM-Agent 在 BLEU-4 上超过我们，但其参数量显著大于我们的模型，达到了 3.96B，而 MiniDrive224 和 MiniDrive384 在整体性能上都优于以往的方法。

4.2 计算分析

本节主要比较了 MiniDrive 与现有视觉-语言模型在参数量、浮点运算次数（FLOPs）和内存使用（GB）方面的差异。结果如表 2 所示。以输入图像分辨率 224 为例，MiniDrive 在所有三个方面的表现均优于现有模型。

4.3 定性示例

在图 4 中，我们展示了 MiniDrive 在三个不同任务上的未见样本实际响应。为了提供对 MiniDrive 处理多视角图像输入的可解释性分析，我们分析了 MiniDrive 在不同场景下的激活图。图 4 (a) 显示了 MiniDrive 在多图像输入下的感知问答，蓝色框指示了用户指令中提到的 “后左” 位置的图像，而红色框对应于 MiniDrive 的响应，主要关注该图像，识别出 “多辆汽车、一辆卡车和一名行人”。图 4 (b) 显示了 MiniDrive 在多图像输入下的规划问答。根据用户指令中的空间术语 “CAM_FRONT”，MiniDrive 关注前方图像左侧的红色框，该注意力与人在做出规划决策时考虑的因素一致，包括自车左侧的车道标志和车辆。图 4 © 展示了 MiniDrive 在多图像输入下的预测问答。根据用户指令预测 “前左” 位置的行人运动，MiniDrive 关注了相应位置图像中的行人（红框标出）。总体而言，MiniDrive 在激活图中关注的对象与人类驾驶时的推理过程一致，表明 MiniDrive 具备一定的可靠性和可解释性。

4.4 消融研究

为了验证各模块的有效性，我们设计了一系列消融实验。在表 3 中，我们探讨了 FE-MoE 和动态指令适配器（DI-Adapter）对 MiniDrive 的影响。当分别引入 FE-MoE 和动态指令适配器时，各项指标的结果都有所提升，而当两个模块同时引入时，效果更加显著。这表明了模块之间机制的有效性。

4.5 进一步分析

尽管 MiniDrive 被设计为能够接收多图像输入的自动驾驶问答模型，它通过将来自多张图像的信息提取、压缩并重新学习为输入到语言模型的文本标记。然而，它仍然可以用于单图像输入任务。我们将其与现有主流开源和闭源通用模型在 CODA-LM 上进行了对比，如表 4 所示。可以看出，尽管 MiniDrive 仅有 83M 的参数量，但其表现优于开源模型，且接近闭源模型的性能。由于训练数据分布问题，我们认为这也是 MiniDrive 在识别 “锥形筒” 方面表现出强大能力的主要因素。

结论：

本文的主要贡献如下：

(1) 开发了适用于自动驾驶的视觉-语言模型——MiniDrive，解决了自动驾驶系统中VLMs的高效部署和实时响应问题，同时保持出色的性能。该模型的训练成本显著降低，多个MiniDrive模型可以在一台RTX 4090 GPU上同时完全训练。
(2) MiniDrive首次尝试将大卷积核架构作为自动驾驶视觉-语言模型的视觉编码器骨干网络，使得不同图像层次的二维特征提取更加高效快速。提出了特征工程专家混合（FE-MoE），解决了从多角度高效编码二维特征为文本标记嵌入的问题，有效减少视觉特征标记的数量，减少冗余特征。
(3) 通过残差结构引入了动态指令适配器，解决了在输入语言模型之前同一图像的视觉标记固定化的问题。DI-Adapter使视觉特征能够根据不同文本指令动态适应，从而增强跨模态理解。
(4) 对MiniDrive进行了广泛的实验，在自动驾驶的多视角图像输入任务Drive-LM上取得了最先进的性能，并在单图像输入的CODA-LM评估系统上，平均超出7B开源模型13.2分。开源了所有资源以促进社区发展。

文章引用：
MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

扫码加入自动驾驶实战知识星球，即可跟学习自动驾驶感知项目：环境配置，算法原理，算法训练，代码理解等。