基于AI多模态大语言模型的“情感-节奏-视觉”三元组动态对齐算法
申请号:CN202511240662
申请日期:2025-09-01
公开号:CN121034352A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了基于AI多模态大语言模型的“情感‑节奏‑视觉”三元组动态对齐算法,涉及跨模态数据处理技术领域。该方法包括:多模态数据采集与预处理,同步获取音频、视频、文本数据并进行清洗和时间戳标准化;跨模态特征提取,通过 LLaMA‑2 模型提取文本情感语义、DTW 算法获取音频时序节奏、DenseNet 模型提取视频视觉特征;基于 ST‑CrossAttention 的动态时空对齐,融合多模态特征并分配权重;生成可解释性输出及分析报告。本系统包括多模态采集模块、特征提取模块、对齐引擎和输出模块。本发明能实现多模态数据的精准对齐与情感融合,提升情感分析的准确性和可解释性,适用于影视分析、人机交互等场景。
技术关键词
大语言模型
三元组
视觉
DTW算法
特写镜头
融合多模态特征
多模态数据采集
运动向量
编码向量
交叉注意力机制
动态权重分配
动态时间规整
联合损失函数
语义特征提取
焦点
时序
跨模态