摘要
本公开提供了一种宠物行为的预测方法、装置、设备和存储介质,该方法包括:获取宠物的类型、图像数据、音频数据以及描述宠物行为的文本数据;对图像数据、音频数据以及文本数据分别进行特征提取并进行多模态特征融合,得到宠物的融合特征;基于宠物的类型和融合特征,采用预先构建宠物行为预测大模型对宠物的行为进行预测,得到宠物的行为预测结果。本公开在进行宠物行为的预测时,不仅引入了视觉模态数据,还同步融合音频模态的听觉特征与主人文本描述的情境语义,并通过跨模态动态加权机制消除单一视觉数据的行为歧义,并捕捉声音信号中的情绪线索及文本描述的隐性状态,从而全面构建宠物行为的多维认知模型,显著提升预测准确性。