一种多模态融合深度学习分析方法及系统

申请号：CN202511285506

申请日期：2025-09-10

公开号：CN120763881A

公开日期：2025-10-10

类型：发明专利

摘要

本公开的实施例提供了一种多模态融合深度学习分析方法及系统。应用于多模态学习技术领域，所述方法包括：获取多模态原始数据后，依次处理图像、文本、音频和视频数据，提取图像的视觉特征，文本的语义特征，音频的频谱与时序特征，视频帧的图像特征与时序特征以及音频序列的时域特征。然后，依据多源特征的互补信息进行融合处理，形成统一的多模态特征表示，并将其输入至预设的深度学习分析模型，最终得到综合表达的多模态分析结果。本方案通过多模态特征融合增强信息互补性和鲁棒性，显著提升模型对复杂场景下语义理解、行为识别和状态判断的综合分析能力，为多模态智能感知系统提供更准确、高效、稳定的决策基础。

技术关键词

时序特征优化采集参数数据采集通道时域特征视觉特征语义特征多模态特征图像融合深度学习音频特征分析方法视频关键帧提取视频帧多模态数据采集融合策略