摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于视觉特征的物体交互分析方法、装置、设备及介质,包括:获取预测帧的多尺度视觉特征,检测显著物体,结合历史视频帧生成动作描述对并构建动作上下文,提取语言特征序列与视觉特征序列,拼接并映射为统一维度,利用自注意力机制实现交互融合,重组为多尺度融合特征图,输出交互物体的空间位置分布、动作类别与时间接触特征。本发明通过历史视频帧的动作描述信息与显著物体列表联合生成文本化动作上下文,结合多尺度视觉特征与语言特征序列,通过统一映射、跨模态交互与特征融合,提升物体交互分析在多变环境中的准确性与稳定性。