视觉-语言模型(VLM)如LLaVA和InstructBLIP,通过嫁接预训练的视觉编码器与大语言模型,展现了强大的多模态理解能力。然而,这类模型普遍存在一个关键缺陷:幻觉。模型会生成看似合理但与输入图像内容不符的描述。例如,在描述一张厨房图片时,模型可能会“看到”一个并不存在的冰箱。
根据EMNLP 2023发布的POPE基准测试结果,当前主流VLM在物体识别任务中的幻觉率高达30%至40%。这一现象不仅削弱了模型的可信度,更在医疗影像分析、自动驾驶等安全关键领域构成了实质性风险。
幻觉问题的三重影响
幻觉问题的严重性体现在以下三个方面:
- 可信度危机:幻觉生成的文本在语法和语义上流畅合理,用户难以直观辨别其真伪,这种隐性错误比明显错误更具欺骗性。
- 应用限制:在医疗诊断辅助、工业检测等需要高精度视觉理解的场景中,任何幻觉输出都可能导致错误决策。
- 训练成本:现有主流解决方案如基于人类反馈的强化学习(RLHF)依赖于大规模人工标注的偏好数据,获取成本高,难以规模化推广。
核心洞察:条件稀释
通过实证分析,我们发现VLM幻觉问题的一个根本性原因在于模型对语言先验的过度依赖。具体表现为:随着生成序列长度增加,模型在每一步对原始图像输入的条件依赖逐渐减弱,转而更多依赖语言模型自身的统计规律。我们将这一现象定义为条件稀释(Conditioning Dilution)。
该现象揭示了当前“嫁接式”VLM架构的一个固有弱点:视觉信息在生成过程的早期被压缩为有限数量的视觉token,并在自回归生成中被逐步稀释,最终难以持续约束生成内容的视觉真实性。
必备知识基础
1. VLM架构:以LLaVA为例
现代VLM普遍采用“嫁接”设计,将独立的视觉编码器与语言模型通过投影层连接。以LLaVA架构为例:
组成部分:
- 视觉编码器:采用CLIP ViT-L/14,将输入图像编码为一系列视觉特征向量,即视觉token序列。
- 投影层:一个可训练的线性层,将视觉特征映射至语言模型的嵌入空间,使语言模型能够理解视觉信息。
- 语言模型:基于Vicuna(LLaMA的指令微调版本),负责理解多模态输入并生成文本。
工作流程:
- 图像通过视觉编码器得到视觉特征向量。
- 投影层将特征转换为视觉token。
- 视觉token与文本prompt拼接,共同输入语言模型。
- 语言模型以自回归方式生成输出文本。
该架构的优势在于能够复用预训练模型的强大能力,但问题在于视觉信息与文本信息在模型内部的融合相对浅层,视觉token仅作为生成序列的前缀,难以在长程生成中保持约束力。
2. 自回归生成与解码策略
自回归生成是指模型逐个生成token,每个新token的概率分布条件于所有已生成的token。数学形式如下:
其中:
- 为生成的文本序列。
- 为文本prompt。
- 为图像上下文。
- 表示前 个已生成的token。
常见解码策略对比:
| 解码策略 | 原理 | 优点 | 缺点 |
|---|---|---|---|
| Greedy Search | 每步选择概率最高的token | 确定性高,速度快 | 易重复,缺乏多样性 |
| Beam Search | 维护k个最优候选序列 | 生成质量较高 | 计算成本高,仍可能重复 |
| Nucleus Sampling | 从累积概率达到p的最小token集合中采样 | 平衡质量与多样性 | 可能偏离主题 |
| Contrastive Decoding | 放大专家模型与弱模型的差异 | 提高事实准确性 | 需要额外的弱模型 |
不同的解码策略对幻觉程度有显著影响。例如,Beam Search倾向于生成更“安全”但可能重复的文本,而Nucleus Sampling可能增加事实偏离的风险。
3. 互信息:量化视觉依赖
互信息(Mutual Information)衡量两个随机变量之间的相互依赖程度。对于图像 和生成token ,给定文本prompt 的条件下,互信息定义为:
解读:
- 当 较大时,表示token 强烈依赖于图像 ,即图像信息对该token的生成起到了决定性作用。
- 当 接近0时,表示 主要由语言先验决定,与图像关系不大。
- 负值表示图像的存在反而降低了该token的生成概率。
理想情况下,我们希望物体名词等语义关键token具有高互信息,而介词、冠词等功能词自然具有低互信息。在条件稀释现象中,随着生成进行,token的互信息呈现系统性下降趋势。
4. DPO:直接偏好优化
Direct Preference Optimization(DPO)是一种无需显式训练奖励模型的偏好对齐方法,近年来被广泛用于减少幻觉。
传统RLHF流程:
- 收集人类偏好数据(同一输入下的优劣输出对)。
- 训练奖励模型以预测偏好。
- 使用强化学习(如PPO)优化语言模型以最大化奖励。
DPO的简化:
DPO跳过了奖励模型训练步骤,直接通过以下目标优化策略:
其中:
- :偏好的输出(幻觉较少)。
- :不偏好的输出(幻觉较多)。
- :参考模型(通常是训练前的模型)。
- :温度参数,控制对偏好的敏感度。
DPO的优势:
- 无需训练额外的奖励模型,计算资源消耗显著降低。
- 训练过程更稳定,避免了RL策略梯度带来的不稳定性。
- 实现简单,易于调试。
5. 评估指标:CHAIR与POPE
准确评估幻觉是改进模型的基础。目前两类主流指标如下:
CHAIR (Captioning Hallucination Assessment with Image Relevance)
CHAIR专门用于评估图像描述任务中的物体幻觉,包含两个变体:
-
CHAIR(instance-level):幻觉物体占所有提及物体的比例。
-
CHAIR(sentence-level):包含幻觉的描述占总描述的比例。
评估方式是将模型生成的物体名称与MS COCO数据集中的标注物体进行对比,未在标注中出现的物体被视为幻觉。
POPE (Polling-based Object Probing Evaluation)
POPE将幻觉评估转化为二分类任务,通过构造Yes/No问题探测模型对特定物体的存在性判断能力。问题形式为:“Is a [object] present in the image?”
三种采样难度:
- Random:随机选择不存在的物体。
- Popular:选择数据集中高频出现但在当前图中不存在的物体。
- Adversarial:选择与图中物体经常共现但实际不存在的物体(如“餐桌”与“餐盘”)。
评估指标:
- Accuracy:分类准确率。
- Yes率:回答“Yes”的比例,过高表明模型倾向于过度肯定,即存在系统性幻觉倾向。