Kunpeng Chen

视觉-语言模型（VLM）如LLaVA和InstructBLIP，通过嫁接预训练的视觉编码器与大语言模型，展现了强大的多模态理解能力。然而，这类模型普遍存在一个关键缺陷：幻觉。模型会生成看似合理但与输入图像内容不符的描述。例如，在描述一张厨房图片时，模型可能会“看到”一个并不存在的冰箱。

根据EMNLP 2023发布的POPE基准测试结果，当前主流VLM在物体识别任务中的幻觉率高达30%至40%。这一现象不仅削弱了模型的可信度，更在医疗影像分析、自动驾驶等安全关键领域构成了实质性风险。

幻觉问题的三重影响

幻觉问题的严重性体现在以下三个方面：

可信度危机：幻觉生成的文本在语法和语义上流畅合理，用户难以直观辨别其真伪，这种隐性错误比明显错误更具欺骗性。
应用限制：在医疗诊断辅助、工业检测等需要高精度视觉理解的场景中，任何幻觉输出都可能导致错误决策。
训练成本：现有主流解决方案如基于人类反馈的强化学习（RLHF）依赖于大规模人工标注的偏好数据，获取成本高，难以规模化推广。

核心洞察：条件稀释

通过实证分析，我们发现VLM幻觉问题的一个根本性原因在于模型对语言先验的过度依赖。具体表现为：随着生成序列长度增加，模型在每一步对原始图像输入的条件依赖逐渐减弱，转而更多依赖语言模型自身的统计规律。我们将这一现象定义为条件稀释（Conditioning Dilution）。

该现象揭示了当前“嫁接式”VLM架构的一个固有弱点：视觉信息在生成过程的早期被压缩为有限数量的视觉token，并在自回归生成中被逐步稀释，最终难以持续约束生成内容的视觉真实性。

必备知识基础

1. VLM架构：以LLaVA为例

现代VLM普遍采用“嫁接”设计，将独立的视觉编码器与语言模型通过投影层连接。以LLaVA架构为例：

组成部分：

视觉编码器：采用CLIP ViT-L/14，将输入图像编码为一系列视觉特征向量，即视觉token序列。
投影层：一个可训练的线性层，将视觉特征映射至语言模型的嵌入空间，使语言模型能够理解视觉信息。
语言模型：基于Vicuna（LLaMA的指令微调版本），负责理解多模态输入并生成文本。

工作流程：

图像通过视觉编码器得到视觉特征向量。
投影层将特征转换为视觉token。
视觉token与文本prompt拼接，共同输入语言模型。
语言模型以自回归方式生成输出文本。

该架构的优势在于能够复用预训练模型的强大能力，但问题在于视觉信息与文本信息在模型内部的融合相对浅层，视觉token仅作为生成序列的前缀，难以在长程生成中保持约束力。

2. 自回归生成与解码策略

自回归生成是指模型逐个生成token，每个新token的概率分布条件于所有已生成的token。数学形式如下：

p(y \mid x, c) = \prod_{t=1}^{T} p(y_t \mid y_{<t}, x, c)

其中：

$y = [y_1, y_2, ..., y_T]$ 为生成的文本序列。
$x$ 为文本prompt。
$c$ 为图像上下文。
$y_{<t}$ 表示前 $t-1$ 个已生成的token。

常见解码策略对比：

解码策略	原理	优点	缺点
Greedy Search	每步选择概率最高的token	确定性高，速度快	易重复，缺乏多样性
Beam Search	维护k个最优候选序列	生成质量较高	计算成本高，仍可能重复
Nucleus Sampling	从累积概率达到p的最小token集合中采样	平衡质量与多样性	可能偏离主题
Contrastive Decoding	放大专家模型与弱模型的差异	提高事实准确性	需要额外的弱模型

不同的解码策略对幻觉程度有显著影响。例如，Beam Search倾向于生成更“安全”但可能重复的文本，而Nucleus Sampling可能增加事实偏离的风险。

3. 互信息：量化视觉依赖

互信息（Mutual Information）衡量两个随机变量之间的相互依赖程度。对于图像 $c$ 和生成token $y$ ，给定文本prompt $x$ 的条件下，互信息定义为：

I(y; c \mid x) = \log \frac{p(y \mid x, c)}{p(y \mid x)}

解读：

当 $I(y; c \mid x)$ 较大时，表示token $y$ 强烈依赖于图像 $c$ ，即图像信息对该token的生成起到了决定性作用。
当 $I(y; c \mid x)$ 接近0时，表示 $y$ 主要由语言先验决定，与图像关系不大。
负值表示图像的存在反而降低了该token的生成概率。

理想情况下，我们希望物体名词等语义关键token具有高互信息，而介词、冠词等功能词自然具有低互信息。在条件稀释现象中，随着生成进行，token的互信息呈现系统性下降趋势。

4. DPO：直接偏好优化

Direct Preference Optimization（DPO）是一种无需显式训练奖励模型的偏好对齐方法，近年来被广泛用于减少幻觉。

传统RLHF流程：

收集人类偏好数据（同一输入下的优劣输出对）。
训练奖励模型以预测偏好。
使用强化学习（如PPO）优化语言模型以最大化奖励。

DPO的简化：
DPO跳过了奖励模型训练步骤，直接通过以下目标优化策略：

\mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(c, x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{p_\theta(y_w \mid c, x)}{p_{\text{ref}}(y_w \mid c, x)} - \beta \log \frac{p_\theta(y_l \mid c, x)}{p_{\text{ref}}(y_l \mid c, x)} \right) \right]

其中：

$y_w$ ：偏好的输出（幻觉较少）。
$y_l$ ：不偏好的输出（幻觉较多）。
$p_{\text{ref}}$ ：参考模型（通常是训练前的模型）。
$\beta$ ：温度参数，控制对偏好的敏感度。

DPO的优势：

无需训练额外的奖励模型，计算资源消耗显著降低。
训练过程更稳定，避免了RL策略梯度带来的不稳定性。
实现简单，易于调试。

5. 评估指标：CHAIR与POPE

准确评估幻觉是改进模型的基础。目前两类主流指标如下：

CHAIR (Captioning Hallucination Assessment with Image Relevance)

CHAIR专门用于评估图像描述任务中的物体幻觉，包含两个变体：

CHAIR $_i$ （instance-level）：幻觉物体占所有提及物体的比例。
$\text{CHAIR}_i = \frac{\text{幻觉物体数量}}{\text{生成的物体总数}}$
CHAIR $_s$ （sentence-level）：包含幻觉的描述占总描述的比例。
$\text{CHAIR}_s = \frac{\text{包含幻觉的描述数}}{\text{总描述数}}$

评估方式是将模型生成的物体名称与MS COCO数据集中的标注物体进行对比，未在标注中出现的物体被视为幻觉。

POPE (Polling-based Object Probing Evaluation)

POPE将幻觉评估转化为二分类任务，通过构造Yes/No问题探测模型对特定物体的存在性判断能力。问题形式为：“Is a [object] present in the image?”

三种采样难度：

Random：随机选择不存在的物体。
Popular：选择数据集中高频出现但在当前图中不存在的物体。
Adversarial：选择与图中物体经常共现但实际不存在的物体（如“餐桌”与“餐盘”）。

评估指标：

Accuracy：分类准确率。
Yes率：回答“Yes”的比例，过高表明模型倾向于过度肯定，即存在系统性幻觉倾向。

Chen Kunpeng

【Multi-modle Hallucination】浅谈VLM幻觉