一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质
申请号:CN202511261692
申请日期:2025-09-05
公开号:CN120763869A
公开日期:2025-10-10
类型:发明专利
摘要
本申请公开了一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质,涉及计算机技术领域,包括:对在线视频会议中的原始音频、原始视频流和原始文档进行特征提取与融合,基于得到的多模态融合特征进行时序划分得到三重时序窗口;确定与三重时序窗口对应的初始权重值,利用预设约束条件对初始权重值进行归一化调整得到调整后权重;利用发言方的发言标识对预设时序偏移矩阵进行索引,基于索引结果对三重时序窗口的原始时序进行校正,并利用预设因果掩码机制确定与三重时序窗口对应的目标注意力结果,基于所述目标注意力结果对多模态融合特征进行多层级对齐融合得到多模态对齐结果。提高多模态对齐技术的精度并避免未来信息泄露。
技术关键词
数据对齐方法
在线视频会议
多模态
融合特征
时序
注意力
轻量级神经网络
校正
视频流
索引
视觉特征提取
语义特征提取
层级
音频编码器
对齐技术
机制
视频编码器
矩阵