当前位置：首页 > news >正文

【AI论文】生成，但验证：通过回顾性重采样减少视觉语言模型中的幻觉

news 来源：原创 2025/4/22 10:45:54

摘要：视觉语言模型（VLMs）擅长视觉理解，但经常会出现视觉幻觉，它们会对不存在的物体、动作或概念进行描述，在安全关键的应用中会带来重大风险。现有的幻觉缓解方法通常遵循两种范式之一：生成调整，修改解码行为以使文本与视觉输入对齐，以及事后验证，其中外部模型评估和纠正输出。虽然有效，但生成调整方法通常依赖于启发式方法，缺乏校正机制，而事后验证很复杂，通常需要多个模型，并且倾向于拒绝输出而不是改进输出。在这项工作中，我们引入了REVERSE，这是一个将幻觉感知训练与即时自我验证相结合的统一框架。通过利用一个新的包含超过130万个半合成样本的幻觉验证数据集，以及一种新的推理时回顾性重采样技术，我们的方法使VLM能够在生成过程中检测幻觉，并动态地修正这些幻觉。我们的评估表明，REVERSE实现了最先进的幻觉减少，在Chair-MSCOCO上比现有的最佳方法高出12%，在HaloQuest上高出28%。我们的数据集、模型和代码可以在以下网址获得：https://reverse-vlm.github.io。Huggingface链接：Paper page，论文链接：2504.13169

研究背景和目的

近年来，视觉语言模型（Vision-Language Models, VLMs）在视觉理解任务中取得了显著进展，如图像描述、视觉问答等。然而，这些模型在生成文本描述时经常会遇到“视觉幻觉”问题，即生成与图像内容不符的、不存在的物体、动作或概念的描述。这种幻觉问题在安全关键型应用中尤为危险，可能导致误导性信息或错误决策。因此，如何有效减少视觉语言模型中的幻觉问题成为了当前研究的重要课题。

现有的幻觉缓解方法主要分为两类：生成调整和事后验证。生成调整方法通过修改解码行为，使生成的文本与视觉输入更加对齐。这类方法要么在解码时调整对数几率（训练无关方式），要么通过引入额外的监督信号或自定义目标函数（训练相关方式）来改进训练过程。然而，生成调整方法一旦生成了错误的标记，就无法进行校正，且缺乏回顾性推理来评估输出质量。另一方面，事后验证方法利用大型外部模型（如GPT-4）在生成后评估和验证输出。虽然这种方法在预测幻觉方面很准确，但它计算成本高昂，且往往采用通用的拒绝策略，而不是对输出进行细化。

针对上述问题，本研究提出了一种名为REVERSE的新框架，旨在通过结合幻觉感知训练和即时自我验证来统一生成调整和事后验证两种方法。REVERSE框架不仅能够在生成过程中检测幻觉，还能动态地修正这些幻觉，从而提高视觉语言模型的可靠性和准确性。

研究方法

REVERSE框架概述

REVERSE框架由两个关键部分组成：幻觉感知训练和回顾性重采样。

幻觉感知训练：通过在一个特别构建的训练数据集上微调视觉语言模型，该数据集包含由特殊标记标注的合成幻觉短语。与仅使用正确标注数据进行训练的视觉语言模型不同，经过幻觉感知训练的模型能够在生成过程中标记可能的短语级幻觉。
回顾性重采样：这是一种允许幻觉感知模型作为其自身验证器的技术。在生成过程中，当幻觉感知模型对特殊幻觉标记给予足够高的概率时，就会触发回溯自我校正过程。具体来说，模型会回溯到最近的置信部分，然后应用拒绝采样和查询重写来修正幻觉。

数据集构建

为了支持幻觉感知训练，研究构建了一个包含130万个半合成样本的幻觉验证数据集。这个数据集通过扩展现有的LLaV A-v1.5-665k指令微调数据集来生成，其中包含了正面（正确）和负面（幻觉）样本。正面样本使用和标记来标注正确的名词短语，而负面样本则使用和标记来标注幻觉短语，并在幻觉短语后立即终止句子。

幻觉感知训练

在训练过程中，模型被显式地训练来分类每个可接地短语为“置信”或“不自信”。这通过修改交叉熵下一个标记预测损失来实现，该损失在训练期间为每个标记分配权重。正面权重被分配给和标记之外的标记，以鼓励标准的下一个标记预测，而零权重则被分配给和标记内的标记，以避免在训练未接地数据时影响似然性。

回顾性重采样

在推理期间，模型遵循标准的下一个标记预测，但持续监控标记的似然性，当该似然性超过预定义的阈值时，就会触发回顾性重采样。重采样过程包括回溯到最近的标记，并应用拒绝采样和查询重写来校正幻觉。拒绝采样通过在增加的温度下重复采样多次来细化不确定的短语，而查询重写则通过动态修改提示来鼓励更好的事实性接地。

研究结果

定量评估

研究在多个基准数据集上评估了REVERSE框架的性能，包括图像描述任务（如CHAIR-MSCOCO和AMBER-G）、开放性问题回答任务（如MMHal-Bench和HaloQuest）以及判别性任务（如AMBER-D、POPE和MME-Hall）。实验结果显示，REVERSE在所有这些任务上都取得了显著的性能提升。

在图像描述任务上，REVERSE比现有的最佳方法减少了高达12%的CHAIR分数（衡量幻觉程度的指标）。
在开放性问题回答任务上，REVERSE在MMHal-Bench上提高了高达10%的准确率，在HaloQuest上提高了高达28%的准确率。
在判别性任务上，REVERSE的性能与现有最佳方法相当，但在处理具有错误前提或不足上下文的查询时表现出更强的鲁棒性。

定性评估

研究还提供了定性结果，展示了REVERSE在生成图像描述时如何减少幻觉。与基线模型相比，REVERSE生成的描述更准确，且不会引入不存在的物体或概念。

研究局限

尽管REVERSE框架在减少视觉语言模型中的幻觉方面取得了显著成效，但本研究仍存在一些局限性：

数据集局限性：当前构建的幻觉验证数据集虽然包含大量的半合成样本，但可能无法完全覆盖所有类型的幻觉情况。因此，未来需要进一步扩展和优化数据集。
模型局限性：REVERSE框架依赖于幻觉感知训练和回顾性重采样技术，这可能对某些类型的幻觉不够敏感或无法有效修正。未来可以考虑结合其他技术来进一步提高模型的鲁棒性。
计算成本：回顾性重采样过程可能增加推理时间的计算成本。虽然这种成本在可接受范围内，但对于实时应用来说可能仍然是一个挑战。未来可以探索更高效的重采样策略来降低计算成本。