【文献学习】Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixtur

三只松许qaq

2025-11-22 61 阅读5分钟

发表时间会议：2025 cvpr

作者：Qizhou Chen

单位：华东师范

文献链接：CVPR 2025 Open Access Repository

一、背景

过时或错误的内置知识可能会削弱模型的价值。为了避免大规模参数的代价高昂的再训练，模型编辑 （model editing）旨在通过调整少量参数来更新特定知识来调整模型。

目前只有有限的工作探索了VLLM中的视觉表示如何促进响应生成，并提出单次编辑（single-shot editing algorithms），但是单次模型编辑不足以保持模型更新。所以提出了终身编辑（lifelong editing）：避免直接编辑原始模型，并在推理过程中应用动态编辑检索和参数融合。图片是终身编辑的示意图，需要保证修改需要修改的，同时不变的继续不变。

文章引入LiveEdit模型，两部分构成：低等级专家混合（lowrank mixture-of-experts），硬路由和软路由（hard and soft routing）

1、低等级专家混合：生成专家

Mixture-of-Experts (MoE)混合专家模型

每个子任务生成一个专家并保存进专家库，不用重新训练。

2、两阶段路由策略：筛选专家

之前文献提到vllm在早期层提取文字prompts，在晚期层提取关键视觉特征。

硬路由（筛选视觉相关专家）

软路由（筛选文本相关专家）通过分配绝对和相对权重（ absolute and relative weights）

在实验中，所提出的 LiveEdit 框架在 LLaVA-V1.5（7 亿参数）、MiniGPT-4（7 亿参数）和 BLIP2-OPT（2.7 亿参数）这三个基础模型上分别进行了 1 次、10 次、100 次和 1000 次编辑操作，涵盖了 E-VQA 、E-IC 和 VLKEB 这三个基准数据集。

文章提到Vllm如何训练：

1、对齐组件：前馈网络（feed forward network）或更复杂的结构，如重采样器（resampler）

2、广谱推理能力broad-spectrum inference capabilities.

3、模型通过接触各种任务（包括视觉问答场景以及视觉和文本上下文中基于指令的交互）而得到优化，从而增强了其功能的通用性。

二、初步定义

image-prompt pair -> textual output

Vllm的编辑器ME：（如何进行迭代）

文章提到三个标准：

可靠性reliability：

猫能不能识别出来猫

I是指示函数，如果一致输出1，不一致输出0。E前t次编辑的样本集合

通用性（Generality）

相似图像，识别猫的模型能不能识别别的猫

相似文本

g是相似域

局部性（Locality）

“模态局部性” 和 “文本局部性”：只改特定内容

l是不相关对图像取空

三、LiveEdit架构

moe放在靠后面的层

1、专家库的构建与更新

1处的公式：

提取编辑信号

UV可训练矩阵

交叉注意力：

softmax，多类别分配权重

2处的公式：

特征提取（feature extractor）：

视觉特征和文本特征

3处的公式：

专家库的更新：

4处的公式

特征提取函数

和2处公式一样，只是输入端不一样

5处的公式

视觉相似度，硬路由公式：

筛选输入图像视觉相关的专家

Θ哨兵，表示动态阈值

解释：如果输入图像的视觉特征与某个 “编辑专家” 的视觉特征，比与 “视觉哨兵” 的特征更相似，该专家才会被选中

软路由公式：

软路由函数 fsr(·) 将 sigmoid 的绝对权重与 softmax 的相对权重相乘。

Softmax相对权重平衡了所选专家之间的相似性。

p是ReLU(x)=max(0,x)，保留正向信号

σ是sigmoid，绝对权重根据相似性控制每个专家的输出强度。

四、损失函数

1、编辑损失

经专家融合修改后的 VLLM 在三类样本上表现符合预期

条件概率

2、路由损失

路由损失=Hr硬路由+sr软路由

有关+无关

Infonce loss：

a输入样本特征，b+正相关，b负相关

硬路由损失通过两个 InfoNCE 损失的组合，实现了 “强化泛化域内的专家 - 输入匹配” 和 “弱化局部域与专家库的无关匹配

软路由：

绝对损失+相对损失

绝对损失（个体）

相对损失（群体）

五、实验

训练集：MMEdit 和VLKEB VLKEB 数据集

测试集：E-VQA (Editing Visual Question Answering) 、E-IC (Editing Image Caption)

EasyEdit/examples/MMEdit.md 在主页 ·zjunlp/EasyEdit

三个主要因素促成了性能优势：

首先，硬路由过滤掉视觉无关的专家；

其次，软路由通过为文本无关的专家分配较低权重来缩放影响；

最后，局部性编辑损失进一步限制了专家对响应适配的影响。

模块维度dm和专家秩r对性能的影响

右上性能好，dm是主要因素，dm增大趋于平稳

我们扩展了特征提取的维度控制参数k：增加k会增强特征提取能力，但过高的k可能引入噪声，导致匹配错误（如降低模态局部性）

在 21 层达到峰值

消融实验

Liveedit在 E-VQA 数据集上对 BLIP2 应用了 1000 次编辑