北大王选所：让多模态大模型更懂人类在做什么

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

10980点击 2024-08-13 16:56

只用提示词，多模态大模型就能更懂场景中的人物关系了。

北京大学最新提出多模态提示学习（Conditional Multi-Modal Prompt, CMMP）方法，利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

在这个过程中，最难的部分在于教会模型识别未见过的人物交互类型。

要知道，大多数现有研究都集中在封闭环境，一旦变成更接近现实的开放环境，模型就懵逼了！

比如下图，先前的检测器在平衡已见和未见类别时遇到了困难，导致调和平均值较低，并且在未见类别上的表现较差。

相比之下，CMMP方法有效解决了这一平衡问题，大幅提升了性能，并为未见类别建立了新的最佳性能。

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

至于CMMP方法如何解决未见类别，一句话：

在特征提取过程中使用视觉空间线索，帮助识别未见的人物-物体交互概念，并通过条件提示学习提高对未见类别的泛化能力。

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

总之，CMMP方法提供了一种新的范式，可以微调多模态大模型，使其具备泛化的区域级人物交互关系检测能力。

以上研究来自北大王选计算机技术研究所，相关论文已被顶会ECCV 2024接收。

零样本人物交互检测新框架

团队提出了一种使用CMMP进行零样本HOI（Human-Object Interaction）检测的新框架。

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

具体来说，CMMP将零样本人物交互检测分为两个子任务：

交互性感知的视觉特征提取
可泛化的交互分类

然后为每个子任务分别提出了解耦的视觉和文本提示，以消除它们之间的依赖性并缓解错误传播。

条件视觉提示（P_v）用于将空间和交互性感知的知识注入图像编码器，并通过实例级视觉先验（C_ins）和交互的全局空间模式（C_gsp）进行约束。条件语言提示（P_L）通过正则化损失受人设计的提示（C_L）的约束。

交互性感知的视觉特征提取

团队采用的多模态模型的图像编码器最初通过对大规模图像-文本对进行对比学习预训练（CLIP），其能力可能仅限于理解图像级的一阶语义。

为了使图像编码器能够区分图像中所有的人物交互性，团队提出将不同粒度的先验知识整合到条件视觉提示中，使其理解为人物交互关系检测任务定制的区域级二阶语义。

具体来说，研究人员将实例级信息作为先验知识融入条件视觉提示中。

给定输入图像，首先使用预训练的物体检测器获取所有实例级先验知识，包括边界框、置信度分数和检测到的实例的语义编码。

此外，为了鼓励每个实例意识到其潜在的交互对象，团队将训练集中交互的全局空间模式（Global Spatial Pattern）与实例级先验知识（Instance-level Visual Prior）结合。

具体来说，对于每个标注的交互人物对，研究人员首先计算其一元和二元空间特征。

随后，使用K-means聚类算法确定聚类中心，并将其用作交互人物对的代表性空间模式。

全局空间交互模式提供了一种类别无关的代表性空间配置，作为理解已见和未见人物交互概念之间交互性的桥梁。

最终，研究人员将结合后的知识通过轻量级适配器融入到图像编码器中。

可泛化的交互分类

为了在学习人物交互检测任务特定表示的同时保留CLIP的可泛化通用知识，团队在文本分支中采用了带有一致性约束的语言感知提示学习（Language-aware Prompt Learning）。

该约束确保已见和未见类别的学习原型（Prototype）之间保持合理的分离边界，不会彼此过度偏离。

具体来说，对于每个动作类别，研究人员首先使用人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。

类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接，然后通过文本编码器获得。

为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力，研究人员提出使用人工设计的提示来指导可学习语言提示的特征空间。

该约束确保已见和未见类别的原型之间保持合理的分离边界，不会彼此过度偏离。

团队应用正则化对比学习损失来减少特征表示与人工设计语言提示的特征表示之间的差异。

训练CMMP

基于交互性感知的特征图和预训练物体检测器提取的人和物体的边界框，团队首先应用ROI-Pooling来提取不同区域的特征。

然后，将不同区域提取的特征进行融合，并通过交互分类器进行最终的交互类别预测。

整个模型在交互分类训练中使用了focal loss，同时还应用了语言正则化损失。

实验结果

在结果验证阶段，团队采用人物交互检测常用数据集HICO-DET，其中的600个人物交互类别由80个物体类别和117个动词类别组成。

为了验证模型的零样本性能，研究人员在HICO-DET上评估了五种零样本设置。

为了和现有方法实现公平比较，研究默认采用ViT-B/16作为骨干网络。

如下表所示，实验结果表明，CMMP在所有的零样本设定上，都在未见类上取得了最佳的性能，这证明了引入条件多模态提示的有效性。

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

如表中每种类型的最后一行所示，通过利用ViT-L/14骨干网来扩展CMMP以匹配CLIP4HOI的FLOPs，新方法在所有划分中都取得了最佳性能。

这表明团队的模型在视觉特征的空间关系提取和交互分类的原型学习方面具有卓越的能力。

此外，先前的方法在已见和未见类别之间表现出严重的性能差异，表明其缺乏泛化能力。

而本研究的模型能够在很大程度上缓解这一问题，并且在泛化到以前未见的交互类别方面具有很高的潜力，这证实了带有约束的多模态提示的有效性。

更多细节请参考原论文。

项目主页：

https://sites.google.com/view/eccv24-cmmp/%E9%A6%96%E9%A1%B5

代码链接：

https://github.com/ltttpku/CMMP

论文链接：

https://arxiv.org/pdf/2408.02484

文章来自于微信公众号量子位作者北京大学王选计算机研究所雷廷

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

关键词: 多模态 , CMMP , Conditional Multi-Modal Prompt , 提示词工程技术 , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0