大型视觉语言模型(LVLM)在多模态任务上展现了强大能力,但最新研究揭示了一个被忽视的安全隐患:文本提示可以诱导模型生成与图像内容不符的输出。
HalluScope基准
论文提出了HalluScope基准,专门测量这种"提示词诱导幻觉"的程度。
# 简化测试逻辑
def test_prompt_override(image, true_label, false_text):
model_output = lvlm.generate(
image=image,
prompt=f"这张图是{false_text},请描述"
)
return model_output.contains(false_text)
核心发现
现有LVLM在文本指令主导时,会显著忽略视觉输入——具体原因尚不明确,但这种现象在安全关键场景中是不可接受的。
启示
对于多模态AI的开发者而言,视觉编码与语言理解的解耦程度远低于预期。在构建高可靠性系统时,必须将"文本干扰视觉"纳入威胁模型。