【文献学习】Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixtur

61 阅读5分钟

发表时间会议:2025 cvpr

作者:Qizhou Chen

单位:华东师范

文献链接:CVPR 2025 Open Access Repository


一、背景

过时或错误的内置知识可能会削弱模型的价值。为了避免大规模参数的代价高昂的再训练,模型编辑 (model editing)旨在通过调整少量参数来更新特定知识来调整模型。

目前只有有限的工作探索了VLLM中的视觉表示如何促进响应生成,并提出单次编辑(single-shot editing algorithms),但是单次模型编辑不足以保持模型更新。所以提出了终身编辑(lifelong editing):避免直接编辑原始模型,并在推理过程中应用动态编辑检索和参数融合。 ​ 图片是终身编辑的示意图,需要保证修改需要修改的,同时不变的继续不变。

文章引入LiveEdit模型,两部分构成:低等级专家混合(lowrank mixture-of-experts),硬路由和软路由(hard and soft routing)

1、低等级专家混合生成专家

Mixture-of-Experts (MoE)混合专家模型

每个子任务生成一个专家并保存进专家库,不用重新训练。

2、两阶段路由策略:筛选专家

之前文献提到vllm在早期层提取文字prompts,在晚期层提取关键视觉特征。

硬路由(筛选视觉相关专家)

软路由(筛选文本相关专家)通过分配绝对和相对权重( absolute and relative weights)

在实验中,所提出的 LiveEdit 框架在 LLaVA-V1.5(7 亿参数)、MiniGPT-4(7 亿参数)和 BLIP2-OPT(2.7 亿参数)这三个基础模型上分别进行了 1 次、10 次、100 次和 1000 次编辑操作,涵盖了 E-VQA 、E-IC 和 VLKEB 这三个基准数据集。

文章提到Vllm如何训练:

1、对齐组件:前馈网络(feed forward network)或更复杂的结构,如重采样器(resampler)

2、广谱推理能力broad-spectrum inference capabilities.

3、模型通过接触各种任务(包括视觉问答场景以及视觉和文本上下文中基于指令的交互)而得到优化,从而增强了其功能的通用性。 ​

二、初步定义

  

image-prompt pair -> textual output    

Vllm的编辑器ME:(如何进行迭代)


文章提到三个标准:

可靠性reliability:

猫能不能识别出来猫

I是指示函数,如果一致输出1,不一致输出0。E前t次编辑的样本集合

通用性(Generality)

相似图像,识别猫的模型能不能识别别的猫

相似文本

g是相似域

局部性(Locality)

“模态局部性” 和 “文本局部性”:只改特定内容

l是不相关   对图像取空

三、LiveEdit架构

moe放在靠后面的层

1、专家库的构建与更新

1处的公式:

提取编辑信号

UV可训练矩阵

交叉注意力:

softmax,多类别分配权重

2处的公式:

特征提取(feature  extractor):

视觉特征和文本特征

3处的公式:

专家库的更新:

4处的公式

特征提取函数

和2处公式一样,只是输入端不一样

5处的公式

视觉相似度,硬路由公式:

筛选输入图像视觉相关的专家

Θ哨兵,表示动态阈值

解释:如果输入图像的视觉特征与某个 “编辑专家” 的视觉特征,比与 “视觉哨兵” 的特征更相似,该专家才会被选中

软路由公式:

软路由函数 fsr(·) 将 sigmoid 的绝对权重与 softmax 的相对权重相乘。

Softmax相对权重平衡了所选专家之间的相似性。

p是ReLU(x)=max(0,x),保留正向信号

σ是sigmoid,绝对权重根据相似性控制每个专家的输出强度。

四、损失函数

1、编辑损失

经专家融合修改后的 VLLM  在三类样本上表现符合预期

条件概率

2、路由损失

路由损失=Hr硬路由+sr软路由

有关+无关

Infonce loss:

a输入样本特征,b+正相关,b负相关

硬路由损失通过两个 InfoNCE 损失的组合,实现了 “强化泛化域内的专家 - 输入匹配” 和 “弱化局部域与专家库的无关匹配

软路由:

绝对损失+相对损失

绝对损失(个体)

相对损失(群体)

五、实验

训练集:MMEdit 和VLKEB VLKEB 数据集

测试集:E-VQA (Editing Visual Question Answering) 、E-IC (Editing Image Caption)

EasyEdit/examples/MMEdit.md 在主页 ·zjunlp/EasyEdit

三个主要因素促成了性能优势:

首先,硬路由过滤掉视觉无关的专家;

其次,软路由通过为文本无关的专家分配较低权重来缩放影响;

最后,局部性编辑损失进一步限制了专家对响应适配的影响。

模块维度dm和专家秩r对性能的影响

右上性能好,dm是主要因素,dm增大趋于平稳

我们扩展了特征提取的维度控制参数k:增加k会增强特征提取能力,但过高的k可能引入噪声,导致匹配错误(如降低模态局部性)

在 21 层达到峰值

消融实验

Liveedit在 E-VQA 数据集上对 BLIP2 应用了 1000 次编辑