让大模型在学习推理的同时学会感知。
伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。
现有的强化学习算法(如GRPO)虽然在纯文本推理中表现优异,但当应用于多模态场景时,往往无法充分利用视觉信息进行推理。
近期有许多工作专注于提升强化学习再多模态场景中的应用,但大多集中在从数据(Data,Rollout)以及奖励机制(Reward)的设计,很少设计对于核心GRPO算法的改动。
而PAPO通过创新的隐式感知损失设计,仅依赖于内部监督信号,让多模态大模型在学习推理的同时学会感知,从根本上解决了现有方法中感知与推理脱节的问题。
PAPO的模型和数据均已开源,详细可见文末链接。
PAPO的第一个重要贡献是通过系统性的错误分析发现了多模态推理中的核心问题,也就是视觉感知的准确性问题。
PAPO团队对使用GRPO训练的Qwen2.5-VL-3B模型在四个基准数据集上的200个错误案例进行详细的人工分析和分类,结果显示:
这一发现颠覆了人们对多模态推理失败原因的普遍认知——问题主要不在于逻辑推理能力,而在于视觉感知的准确性。
上图展现了一个典型例子:在一个几何推理任务中,用户询问”Find x”,正确答案是9。
使用传统GRPO训练的模型会错误地将x与60度角对应的边关联,犯了感知错误;而PAPO训练的模型则正确识别了x是30度角对应的短边,得到了正确答案。
这个例子清晰地展示了PAPO在提升视觉感知准确性方面的显著效果。
基于上述发现,PAPO提出了创新的隐式感知损失(Implicit Perception Loss)设计。
该方法的核心思想是:一个优秀的多模态推理模型应该在原始图像和损坏图像上产生显著不同的输出分布,这表明模型真正依赖于有意义的视觉内容。
下图展示了PAPO目标函数与传统GRPO的对比:
PAPO的技术创新包括:
感知信息增益比设计:定义了感知信息增益比rprcp=πθ(o|q,I)/π_θ(o|q,I_mask),其中I_mask是通过随机遮盖补丁生成的损坏图像。
KL散度最大化:通过最大化KL散度DKL[πθ(o|q,I)||π_θ(o|q,I_mask)],鼓励模型在原始图像和损坏图像上产生不同的输出。
无缝集成GRPO:PAPO作为GRPO的简单扩展,完整的目标函数为:J_PAPO=J_GRPO+γ·KL_prcp
在损坏图像的遮盖上,PAPO探索了两种图像基于Patch的掩码策略来生成损坏图像I_mask。
如上图所示,与加入噪声的方式不同,基于Patch的掩码方式更能有效移除图像的语义信息:
后续实验表明,尽管随机遮盖方法更简单,但效果反而优于复杂的语义感知遮盖,这可能是因为语义感知遮盖倾向于完全遮盖显著对象,而随机遮盖能保持更好的平衡。
PAPO团队在8个多模态推理基准上对Qwen2.5-VL-3B和7B模型进行了全面评估。实验结果显示,PAPO在所有基准上都取得了一致的改进。
实现了4.4%的整体平均提升,高视觉依赖任务(如LogicVista、SuperClevrCounting)的8.0%显著提升;30.5%的感知错误减少。
上述实验结果表明,PAPO成功解决了多模态推理中的感知瓶颈,无需额外的计算资源或外部模型。
在训练动态分析中,PAPO相比GRPO也展现出明显更优的训练动态特征:
消融实验
除此之外,PAPO团队还系统研究了隐式感知损失权重γ对性能的影响,发现:
掩码策略与比例优化
通过分析PAPO掩码策略和比例的影响关键发现:
PAPO+移除ReferenceKL的协同效应
PAPO团队验证了PAPO与移除原有的与Reference模型之间的KL约束的组合效果,发现PAPO与现有算法改进高度兼容。
这一结果表明PAPO不仅是一个独立有效的改进,还能与其他优化技术形成协同效应。
在深入研究PAPO时,研究团队发现了一种特有的模型崩溃现象——KL_prcp Hacking。
当隐式感知损失权重γ设置过大时,模型会“钻空子”过度优化KL_prcp项。
具体表现为Reward快速的下降,熵快速增大,并开始出现生成无关内容。
崩溃特征如下:
PAPO团队识别了KL_prcp Hacking的早期预警信号,发现了以下几个关键指标:
对KL_prcp Hacking的主要影响因素进行分析,发现:
为了在高-γ设置中更好地正则化KLprcp,PAPO团队引入了双重熵损失,这是一种有效的正则化方法,能够在保持性能的同时防止崩溃。
这个想法源于PAPO团队的观察,即πθ和πθ^mask中的展开熵增加是崩溃的早期迹象。双重熵损失鼓励模型保持这两种熵都较低,可以表示为:
其中H表示熵损失,计算为生成序列的负对数概率,而…部分与上述PAPO目标相同。
实验结果表明,双重熵损失可以在防止崩溃的同时保持最佳性能。
在评估多模态基准的视觉依赖程度时,PAPO团队发现,许多主流的多模态推理基准中实际上包含大量非“多模态”任务。
例如题目的文本部分已经提供了丰富的视觉相关信息,使得模型即便不查看图像也能作出正确回答。
针对这一现象,作者对当前主流数据集进行了系统的视觉依赖性分析,并将任务划分为三个等级:
实验结果表明,PAPO在高视觉依赖任务中改进最为显著(接近8%);在中等依赖任务中表现稳定;即使在低依赖任务中也有一致改进。
这一分析进一步验证了PAPO针对感知瓶颈问题的精准定位,以及其进一步提升多模态推理的有效性。
以下是一些实际应用案例:
案例1:直角三角形边长计算
案例2:圆形几何问题
案例3:物体计数问题
案例4:多图逻辑推理问题
通过以上案例可以看出,在复杂几何问题中,PAPO显著提升了模型对图形关系的理解。
项目主页:https://mikewangwzhl.github.io/PAPO/
论文:https://arxiv.org/abs/2507.06448
GitHub:https://github.com/MikeWangWZHL/PAPO
模型:https://huggingface.co/collections/PAPOGalaxy/papo-qwen-686d92dd3d43b1ce698f851a
数据:https://huggingface.co/collections/PAPOGalaxy/data-686da53d67664506f652774f
文章来自于微信公众号“量子位”。