9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

6716点击 2024-12-30 14:43

在现代多模态视觉语言模型（VLM）的发展中，提高图像描述的准确性和细节丰富性始终是一个挑战。尽管基于大规模数据的训练极大推动了模型性能，但在实际应用中，模型仍面临识别细微图像区域和减少「幻觉」现象的问题。

推理时搜索（inference time search）作为一种提升响应质量的有效方法，已在大型语言模型中展现出巨大潜力。

O1和QwQ等大语言模型通过在推理阶段在语言空间中进行搜索得到更好的回答，在数学和代码等任务中展现了远超越其他模型的卓越性能。

那么，我们能否同样通过推理时搜索来提升多模态视觉语言模型的响应质量，并减少响应中的幻觉呢？答案是是的。

来自马里兰大学和微软的研究团队提出了视觉价值模型（Vision Value Model, VisVM），通过精确控制搜索过程来显著提高模型在视觉任务中的表现。

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

论文地址：https://arxiv.org/abs/2412.03704

项目页面：https://si0wang.github.io/projects/VisVM/

项目代码：https://github.com/si0wang/VisVM

VisVM是一种价值网络，可以通过对逐步生成描述性标题提供奖励信号来指导视觉语言模型（VLM）在推理时的搜索。

模型训练

VisVM首先使用VLM自身生成多个多样化的响应，并将这些响应按照句子维度拆分成<current sentence，next sentence>的sentence pair。

对于每一个current sentence使用CLIP model计算这句话和对应图像的cosine similarity作为reward，最后构成< current sentence, reward，next sentence, Image>的四元组作为VisVM的训练数据。

VisVM使用强化学习中的时序差分学习（Temporal Difference learning）作为损失函数进行训练。这使得VisVM不仅可以评估当前句子与图像之间的匹配程度，还可以预测当前句子如何影响未来句子的生成，为搜索提供一个长期价值信号。

VisVM引导下的推理阶段搜索：

在训练好VisVM之后，作者使用VisVM作为奖励信号来逐步精细化推理过程。这一过程包括以下几个步骤：

1. 生成多个句子候选：首先，模型会生成多个可能的句子，作为响应的候选。

2. 通过VisVM进行评估：接下来，利用VisVM对这些候选句子进行综合评估，考察其与图像内容的匹配度以及对未来生成句子的潜在影响（句子中包含的幻觉，细致程度等）。

3. 选择最佳句子：根据VisVM的评估，从候选中挑选出最优的句子来继续生成。

相比于直接使用只考虑当前句子与图像匹配程度的clip分数作为奖励信号进行搜索，VisVM可以进一步通过考虑后续生成的句子中的潜在幻觉来预测长期价值，使得VisVM能够避开具有更高幻觉风险的响应候选，并生成不易产生幻觉且更详细的图像描述。

通过这种迭代的推理过程，VLM能够构建出完整且高质量的响应序列，有效减少信息遗漏和幻觉错误，显著提升模型的应用性能。

实验

研究人员采用LLaVA-Next-Mistral-7B作为实验的基础模型，通过在其encoder的最后一层添加一个线性层作为value head，构建了VisVM并基于这个结构使用上文中构造的数据集与损失函数进行训练。

在后续的实验中，均使用LLaVA-Next-Mistral-7B作为base model用于生成响应。

研究人员首先评估了使用不同解码方式生成的响应质量，作者从COCO2017数据集中采样了1000个图像，并与llava detailed description 数据集中用于图像描述的9个prompt进行了随机匹配作为测试集用于生成图像藐视。

分别使用人类评估和GPT-4o评估，将VisVM引导的搜索与其他常规方法如CLIP-PRM指导搜索、Best-of-N选择和贪婪解码得到的图像描述进行了比较。

结果表明VisVM在生成图像描述时不仅细节更为丰富，产生的幻觉也大幅减少，其生成的描述性内容更加受到evaluator的青睐。

尤其是在人类作为评估者的情况下，VisVM引导搜索得到的图像描述相比于其他三个方法分别取得了66.0%, 63.5%和74.0%的获胜比率。

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

例如，在描述这个场景时，VisVM引导的搜索甚至可以描述出挡风玻璃上的水滴挡住了绿色指示牌，这种细节在人类标注的时候甚至都难以察觉。展示了视觉价值模型对于细节描述的强大能力。

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

在现有幻觉的benchmark中，研究人员在VLM的inference阶段使用了非搜索方式生成响应用于评估。

在CHAIR和MMHal两个用于测试VLM幻觉的benchmark上VisVM引导的搜索取得了显著优于其他方法的效果，展示出减少VLM生成响应中的幻觉的强大能力

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

并且，作者还进一步探索了了VisVM引导搜索的scaling law，结果发现无论是采用VisVM引导的搜索还是CLIP-PRM引导的搜索，随着搜索步骤大小的增加，模型的性能都会逐步提升。这一现象证明了扩大推理时间的计算量能够显著增强VLM的视觉理解能力。

特别值得注意的是，随着步骤大小的增加，VisVM引导搜索的性能提升速度更快，使得两种方法之间的性能差距不断扩大。VisVM在达到与CLIP-PRM相当的性能时，其计算效率几乎是后者的两倍。

通过扩大搜索步骤，VisVM不仅能更快地达到理想的性能，还能以更低的计算成本实现，这在提升模型处理复杂视觉任务时尤为重要。

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

基于VisVM强大的减少幻觉的能力，作者使用使用LLaVA-NEXT-Mistral-7B作为基础模型，并利用VisVM作为奖励信号，搜索生成高质量的图像描述作为监督微调（SFT）数据，对LLaVA-NEXT-Mistral-7B进行训练。

在九个理解和幻觉基准上的测试表明，VisVM引导的自我训练使LLAVA-next-7B的性能平均提升了10.8%，相比于其他搜索方法得到的图像描述作为训练数据提升显著。

特别是在提升了视觉理解能力后，VLM的reasoning能力也有所提高，例如MMMU和MathVista两个benchmark，该结果进一步展示了VisVM搜索得到的图像描述质量之高。

此外，这也揭示了VisVM在自我训练框架中的应用潜力，仅通过在语言空间中进行高质量搜索并进行微调，就能显著提升原始VLM的视觉理解能力，这一发现为未来VLM的发展提供了新的方向和思路。

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

参考资料：

https://arxiv.org/abs/2412.03704

文章来自微信公众号“新智元”

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

关键词: AI , VisVM , AI视频 , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0