细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

5785点击 2025-01-19 14:51

核心作者包括顾纪豪，王瑛瑶。工作由淘天集团算法技术 - 未来生活实验室团队主要完成。为了建设面向未来的生活和消费方式，进一步提升用户体验和商家经营效果，淘天集团集中算力、数据和顶尖的技术人才，成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向，致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用，引领 AI 在生活消费领域的技术创新。

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

为有效缓解 LVLMs 中的幻觉现象，团队提出了一种创新的令牌级偏好对齐方法（Token Preference Optimization，TPO），针对性设计了一个能够自我校准的视觉锚定奖励信号。

该方法首次在多模态偏好对齐领域实现了自动校准奖励，优化每个令牌生成时与视觉信息的相关性。同时，它也是多模态领域首个无需人工细粒度标注的令牌级偏好优化方法，从而提升了模型的优化效率和自动化水平。

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

论文标题：Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation作者单位：阿里巴巴淘天集团 & MBZUAI论文链接：https://arxiv.org/pdf/2412.14487

背景

现如今的 DPO 方法通过直接对齐人类偏好，在缓解大型视觉语言模型幻觉问题方面取得了显著成效。然而它仍然面临两个问题：

缺少高效和可扩展的 token-level 的奖励信号：如图 1 所示，现有的多模态偏好对齐方法要么使用 sequence-level 的奖励，要么需要通过细粒度标注获得 token- level 的监督信号。因此，设计一个高效且可扩展的 token-level 的监督信号非常重要。在训练的过程中忽略了视觉锚定的 tokens（visual-anchored tokens）对所有 token 分配相同的奖励是低效的，依赖视觉信息生成的 tokens 更容易产生幻觉并需要重点对待（如图 2 中的 glass）。

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

图 1:TPO 方法和其它消除幻觉的 DPO 改进方法的对比。比较了是否关注视觉锚定信息，是否生成 token-level 的监督信号和是否需要细粒度标注。比较的方法包括 DPO、POVID、CSR、RLHF-V、V-DPO 和论文中的方法 TPO。

为了解决上述问题，TPO 具有如下特点：

自动识别偏好数据中的视觉锚定 token，无需人工细粒度标注。在每个训练步自动地分配 token-level 的奖励，该奖励可以反映当前 token 对图片信息的依赖程度。

图 2 可视化了 TPO 训练前后的 ground truth 及模型回复的视觉锚定奖励。可以看到，我们的方法有效地找到了视觉锚定的 tokens，并能够在训练之后增强模型对视觉信息的关联。

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

图 2：一个视觉 QA 对的例子以及 TPO 对视觉信息锚定程度的打分可视化，上面的框是 GT_answer，下面的框是 LVLM 在使用 TPO 训练前后的回复。在每一个框中，上方是 TPO 训练前的打分，下方则是训练后的打分。

方法

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

图 3:TPO 的整体流程

TPO 整体流程

（以下步骤中的数据包含输入 x，图像 v 和正负样本 y_w,y_l。当不强调正样本或负样本时，统称为 y.）

1. 自校准的视觉锚定奖励生成

TPO 通过捕捉在图像是否加噪时每个生成 token 的生成概率差的变化来衡量其视觉锚定程度，首先对输入图像进行加噪处理：

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

进一步地，在此引入自我校准的过程获得最终的监督信号。这一步的目的是为正负样本分配相应奖励的同时，能够对二者中所有视觉锚定 token 进行视觉信息关联度的优化。最终的视觉监督信号被定义为：

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

TPO 训练

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

则反馈函数为：

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

最终得到 TPO 的优化目标为：

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

实验结果

实验设置

基础模型：LLaVA-1.5（7B）/（13B）。数据：RLHF-V（5k）。Benchmark：幻觉评测集 AMBER、MMHal、HallusionBench，通用评测集 SeedBench、MMBench、LLaVA-Bench 及 MM-Vet。

主实验结果

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

图 4：各种强化学习方法在 LLaVA-1.5 上测试的在幻觉和通用 benchmarks 上的实验效果，其中 POVID 和 CSR 方法的结果是根据开源的模型权重测试的效果，V-DPO 的结果来自该文章的结果。

TPO 在 LLaVA-1.5（7B）/（13B）模型上均带来非常显著的幻觉缓解效果，在大部分幻觉指标上超越了现有的偏好对齐幻觉缓解方法。在 HallusionBench 中，easy 代表基于原图问答，hard 代表基于人工编辑的反事实图片问答。我们的方相较于初始模型在 hard 问题上取得了更显著的提高，说明在 TPO 后，答案生成更依赖于视觉信息而非语言模型先验知识。

消融实验