基于AI多模态大语言模型的“情感-节奏-视觉”三元组动态对齐算法

申请号：CN202511240662

申请日期：2025-09-01

公开号：CN121034352A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了基于AI多模态大语言模型的“情感‑节奏‑视觉”三元组动态对齐算法，涉及跨模态数据处理技术领域。该方法包括：多模态数据采集与预处理，同步获取音频、视频、文本数据并进行清洗和时间戳标准化；跨模态特征提取，通过 LLaMA‑2 模型提取文本情感语义、DTW 算法获取音频时序节奏、DenseNet 模型提取视频视觉特征；基于 ST‑CrossAttention 的动态时空对齐，融合多模态特征并分配权重；生成可解释性输出及分析报告。本系统包括多模态采集模块、特征提取模块、对齐引擎和输出模块。本发明能实现多模态数据的精准对齐与情感融合，提升情感分析的准确性和可解释性，适用于影视分析、人机交互等场景。

技术关键词

大语言模型三元组视觉 DTW算法特写镜头融合多模态特征多模态数据采集运动向量编码向量交叉注意力机制动态权重分配动态时间规整联合损失函数语义特征提取焦点时序跨模态