一种基于可解释视觉提示的人物交互行为识别方法和装置
申请号:CN202411725597
申请日期:2024-11-28
公开号:CN119964227B
公开日期:2025-10-10
类型:发明专利
摘要
本发明提供一种基于可解释视觉提示的人物交互行为识别方法和装置,包括:基于获取的多个包含人物交互行为的图片生成人物交互行为识别数据集;将数据集中的图像输入特征提取网络得到全图特征;将全图特征与为图像添加的视觉提示输入人体物体检测器,得到人体视觉特征、物体视觉特征、人体视觉提示和物体视觉提示;将这些特征输入人物交互行为解码器得到交互行为特征;基于预训练的教师网络模型对图像进行检测得到人体姿态特征、物体特征和交互区域特征,作为教师特征,将人体视觉提示、物体视觉提示和交互行为特征作为学生特征,蒸馏识别网络的参数,得到训练后的人物交互行为识别网络。基于该网络能够实现准确的人物交互行为识别。
技术关键词
视觉特征
物体检测器
姿态特征
识别方法
特征提取网络
解码器
教师
蒸馏
人体关键点
图像编码器
非暂态计算机可读存储介质
图片
学生
文本编码器
模型训练模块