LVLM视觉幻觉新发现:提示词如何覆盖视觉感知?

5 阅读1分钟

大型视觉语言模型(LVLM)在多模态任务上展现了强大能力,但最新研究揭示了一个被忽视的安全隐患:文本提示可以诱导模型生成与图像内容不符的输出。

HalluScope基准

论文提出了HalluScope基准,专门测量这种"提示词诱导幻觉"的程度。

# 简化测试逻辑
def test_prompt_override(image, true_label, false_text):
    model_output = lvlm.generate(
        image=image,
        prompt=f"这张图是{false_text},请描述"
    )
    return model_output.contains(false_text)

核心发现

现有LVLM在文本指令主导时,会显著忽略视觉输入——具体原因尚不明确,但这种现象在安全关键场景中是不可接受的。

启示

对于多模态AI的开发者而言,视觉编码与语言理解的解耦程度远低于预期。在构建高可靠性系统时,必须将"文本干扰视觉"纳入威胁模型。