发表时间会议:2025 cvpr
作者:Qizhou Chen
单位:华东师范
文献链接:CVPR 2025 Open Access Repository
一、背景
过时或错误的内置知识可能会削弱模型的价值。为了避免大规模参数的代价高昂的再训练,模型编辑 (model editing)旨在通过调整少量参数来更新特定知识来调整模型。
目前只有有限的工作探索了VLLM中的视觉表示如何促进响应生成,并提出单次编辑(single-shot editing algorithms),但是单次模型编辑不足以保持模型更新。所以提出了终身编辑(lifelong editing):避免直接编辑原始模型,并在推理过程中应用动态编辑检索和参数融合。
图片是终身编辑的示意图,需要保证修改需要修改的,同时不变的继续不变。
文章引入LiveEdit模型,两部分构成:低等级专家混合(lowrank mixture-of-experts),硬路由和软路由(hard and soft routing)
1、低等级专家混合:生成专家
Mixture-of-Experts (MoE)混合专家模型
每个子任务生成一个专家并保存进专家库,不用重新训练。
2、两阶段路由策略:筛选专家
之前文献提到vllm在早期层提取文字prompts,在晚期层提取关键视觉特征。
硬路由(筛选视觉相关专家)
软路由(筛选文本相关专家)通过分配绝对和相对权重( absolute and relative weights)
在实验中,所提出的 LiveEdit 框架在 LLaVA-V1.5(7 亿参数)、MiniGPT-4(7 亿参数)和 BLIP2-OPT(2.7 亿参数)这三个基础模型上分别进行了 1 次、10 次、100 次和 1000 次编辑操作,涵盖了 E-VQA 、E-IC 和 VLKEB 这三个基准数据集。
文章提到Vllm如何训练:
1、对齐组件:前馈网络(feed forward network)或更复杂的结构,如重采样器(resampler)
2、广谱推理能力broad-spectrum inference capabilities.
3、模型通过接触各种任务(包括视觉问答场景以及视觉和文本上下文中基于指令的交互)而得到优化,从而增强了其功能的通用性。
二、初步定义
image-prompt pair -> textual output
Vllm的编辑器ME:(如何进行迭代)
文章提到三个标准:
可靠性reliability:
猫能不能识别出来猫
I是指示函数,如果一致输出1,不一致输出0。E前t次编辑的样本集合
通用性(Generality)
相似图像,识别猫的模型能不能识别别的猫
相似文本
g是相似域
局部性(Locality)
“模态局部性” 和 “文本局部性”:只改特定内容
l是不相关 对图像取空
三、LiveEdit架构
moe放在靠后面的层
1、专家库的构建与更新
1处的公式:
提取编辑信号
UV可训练矩阵
交叉注意力:
softmax,多类别分配权重
2处的公式:
特征提取(feature extractor):
视觉特征和文本特征
3处的公式:
专家库的更新:
4处的公式
特征提取函数
和2处公式一样,只是输入端不一样
5处的公式
视觉相似度,硬路由公式:
筛选输入图像视觉相关的专家
Θ哨兵,表示动态阈值
解释:如果输入图像的视觉特征与某个 “编辑专家” 的视觉特征,比与 “视觉哨兵” 的特征更相似,该专家才会被选中
软路由公式:
软路由函数 fsr(·) 将 sigmoid 的绝对权重与 softmax 的相对权重相乘。
Softmax相对权重平衡了所选专家之间的相似性。
p是ReLU(x)=max(0,x),保留正向信号
σ是sigmoid,绝对权重根据相似性控制每个专家的输出强度。
四、损失函数
1、编辑损失
经专家融合修改后的 VLLM 在三类样本上表现符合预期
条件概率
2、路由损失
路由损失=Hr硬路由+sr软路由
有关+无关
Infonce loss:
a输入样本特征,b+正相关,b负相关
硬路由损失通过两个 InfoNCE 损失的组合,实现了 “强化泛化域内的专家 - 输入匹配” 和 “弱化局部域与专家库的无关匹配
软路由:
绝对损失+相对损失
绝对损失(个体)
相对损失(群体)
五、实验
训练集:MMEdit 和VLKEB VLKEB 数据集
测试集:E-VQA (Editing Visual Question Answering) 、E-IC (Editing Image Caption)
EasyEdit/examples/MMEdit.md 在主页 ·zjunlp/EasyEdit
三个主要因素促成了性能优势:
首先,硬路由过滤掉视觉无关的专家;
其次,软路由通过为文本无关的专家分配较低权重来缩放影响;
最后,局部性编辑损失进一步限制了专家对响应适配的影响。
模块维度dm和专家秩r对性能的影响
右上性能好,dm是主要因素,dm增大趋于平稳
我们扩展了特征提取的维度控制参数k:增加k会增强特征提取能力,但过高的k可能引入噪声,导致匹配错误(如降低模态局部性)
在 21 层达到峰值
消融实验
Liveedit在 E-VQA 数据集上对 BLIP2 应用了 1000 次编辑