avatar

Chen Kunpeng

Tongji University. Focusing on Trustworthy AI & Federated Learning.

【Multi-modle Hallucination】浅谈VLM幻觉

视觉-语言模型(VLM)如LLaVA和InstructBLIP,通过嫁接预训练的视觉编码器与大语言模型,展现了强大的多模态理解能力。然而,这类模型普遍存在一个关键缺陷:幻觉。模型会生成看似合理但与输入图像内容不符的描述。例如,在描述一张厨房图片时,模型可能会“看到”一个并不存在的冰箱。

根据EMNLP 2023发布的POPE基准测试结果,当前主流VLM在物体识别任务中的幻觉率高达30%至40%。这一现象不仅削弱了模型的可信度,更在医疗影像分析、自动驾驶等安全关键领域构成了实质性风险。

幻觉问题的三重影响

幻觉问题的严重性体现在以下三个方面:

  1. 可信度危机:幻觉生成的文本在语法和语义上流畅合理,用户难以直观辨别其真伪,这种隐性错误比明显错误更具欺骗性。
  2. 应用限制:在医疗诊断辅助、工业检测等需要高精度视觉理解的场景中,任何幻觉输出都可能导致错误决策。
  3. 训练成本:现有主流解决方案如基于人类反馈的强化学习(RLHF)依赖于大规模人工标注的偏好数据,获取成本高,难以规模化推广。

核心洞察:条件稀释

通过实证分析,我们发现VLM幻觉问题的一个根本性原因在于模型对语言先验的过度依赖。具体表现为:随着生成序列长度增加,模型在每一步对原始图像输入的条件依赖逐渐减弱,转而更多依赖语言模型自身的统计规律。我们将这一现象定义为条件稀释(Conditioning Dilution)

该现象揭示了当前“嫁接式”VLM架构的一个固有弱点:视觉信息在生成过程的早期被压缩为有限数量的视觉token,并在自回归生成中被逐步稀释,最终难以持续约束生成内容的视觉真实性。

必备知识基础

1. VLM架构:以LLaVA为例

现代VLM普遍采用“嫁接”设计,将独立的视觉编码器与语言模型通过投影层连接。以LLaVA架构为例:

组成部分

  • 视觉编码器:采用CLIP ViT-L/14,将输入图像编码为一系列视觉特征向量,即视觉token序列。
  • 投影层:一个可训练的线性层,将视觉特征映射至语言模型的嵌入空间,使语言模型能够理解视觉信息。
  • 语言模型:基于Vicuna(LLaMA的指令微调版本),负责理解多模态输入并生成文本。

工作流程

  1. 图像通过视觉编码器得到视觉特征向量。
  2. 投影层将特征转换为视觉token。
  3. 视觉token与文本prompt拼接,共同输入语言模型。
  4. 语言模型以自回归方式生成输出文本。

该架构的优势在于能够复用预训练模型的强大能力,但问题在于视觉信息与文本信息在模型内部的融合相对浅层,视觉token仅作为生成序列的前缀,难以在长程生成中保持约束力。

2. 自回归生成与解码策略

自回归生成是指模型逐个生成token,每个新token的概率分布条件于所有已生成的token。数学形式如下:

p(yx,c)=t=1Tp(yty<t,x,c)p(y \mid x, c) = \prod_{t=1}^{T} p(y_t \mid y_{<t}, x, c)

其中:

  • y=[y1,y2,...,yT]y = [y_1, y_2, ..., y_T] 为生成的文本序列。
  • xx 为文本prompt。
  • cc 为图像上下文。
  • y<ty_{<t} 表示前 t1t-1 个已生成的token。

常见解码策略对比

解码策略 原理 优点 缺点
Greedy Search 每步选择概率最高的token 确定性高,速度快 易重复,缺乏多样性
Beam Search 维护k个最优候选序列 生成质量较高 计算成本高,仍可能重复
Nucleus Sampling 从累积概率达到p的最小token集合中采样 平衡质量与多样性 可能偏离主题
Contrastive Decoding 放大专家模型与弱模型的差异 提高事实准确性 需要额外的弱模型

不同的解码策略对幻觉程度有显著影响。例如,Beam Search倾向于生成更“安全”但可能重复的文本,而Nucleus Sampling可能增加事实偏离的风险。

3. 互信息:量化视觉依赖

互信息(Mutual Information)衡量两个随机变量之间的相互依赖程度。对于图像 cc 和生成token yy,给定文本prompt xx 的条件下,互信息定义为:

I(y;cx)=logp(yx,c)p(yx)I(y; c \mid x) = \log \frac{p(y \mid x, c)}{p(y \mid x)}

解读

  • I(y;cx)I(y; c \mid x) 较大时,表示token yy 强烈依赖于图像 cc,即图像信息对该token的生成起到了决定性作用。
  • I(y;cx)I(y; c \mid x) 接近0时,表示 yy 主要由语言先验决定,与图像关系不大。
  • 负值表示图像的存在反而降低了该token的生成概率。

理想情况下,我们希望物体名词等语义关键token具有高互信息,而介词、冠词等功能词自然具有低互信息。在条件稀释现象中,随着生成进行,token的互信息呈现系统性下降趋势。

4. DPO:直接偏好优化

Direct Preference Optimization(DPO)是一种无需显式训练奖励模型的偏好对齐方法,近年来被广泛用于减少幻觉。

传统RLHF流程

  1. 收集人类偏好数据(同一输入下的优劣输出对)。
  2. 训练奖励模型以预测偏好。
  3. 使用强化学习(如PPO)优化语言模型以最大化奖励。

DPO的简化
DPO跳过了奖励模型训练步骤,直接通过以下目标优化策略:

LDPO=E(c,x,yw,yl)[logσ(βlogpθ(ywc,x)pref(ywc,x)βlogpθ(ylc,x)pref(ylc,x))]\mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(c, x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{p_\theta(y_w \mid c, x)}{p_{\text{ref}}(y_w \mid c, x)} - \beta \log \frac{p_\theta(y_l \mid c, x)}{p_{\text{ref}}(y_l \mid c, x)} \right) \right]

其中:

  • ywy_w:偏好的输出(幻觉较少)。
  • yly_l:不偏好的输出(幻觉较多)。
  • prefp_{\text{ref}}:参考模型(通常是训练前的模型)。
  • β\beta:温度参数,控制对偏好的敏感度。

DPO的优势

  • 无需训练额外的奖励模型,计算资源消耗显著降低。
  • 训练过程更稳定,避免了RL策略梯度带来的不稳定性。
  • 实现简单,易于调试。

5. 评估指标:CHAIR与POPE

准确评估幻觉是改进模型的基础。目前两类主流指标如下:

CHAIR (Captioning Hallucination Assessment with Image Relevance)

CHAIR专门用于评估图像描述任务中的物体幻觉,包含两个变体:

  • CHAIRi_i(instance-level):幻觉物体占所有提及物体的比例。

    CHAIRi=幻觉物体数量生成的物体总数\text{CHAIR}_i = \frac{\text{幻觉物体数量}}{\text{生成的物体总数}}

  • CHAIRs_s(sentence-level):包含幻觉的描述占总描述的比例。

    CHAIRs=包含幻觉的描述数总描述数\text{CHAIR}_s = \frac{\text{包含幻觉的描述数}}{\text{总描述数}}

评估方式是将模型生成的物体名称与MS COCO数据集中的标注物体进行对比,未在标注中出现的物体被视为幻觉。

POPE (Polling-based Object Probing Evaluation)

POPE将幻觉评估转化为二分类任务,通过构造Yes/No问题探测模型对特定物体的存在性判断能力。问题形式为:“Is a [object] present in the image?”

三种采样难度

  • Random:随机选择不存在的物体。
  • Popular:选择数据集中高频出现但在当前图中不存在的物体。
  • Adversarial:选择与图中物体经常共现但实际不存在的物体(如“餐桌”与“餐盘”)。

评估指标

  • Accuracy:分类准确率。
  • Yes率:回答“Yes”的比例,过高表明模型倾向于过度肯定,即存在系统性幻觉倾向。