一种用于视频字幕生成的跨模态结构对齐方法及系统
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
验证码登录
×
发送
登录即代表您已同意AITNT
用户协议
和
隐私政策
登录
登录成功后会自动刷新界面
AITNT公众号
AITNT APP
AITNT交流群
搜索
未登录
首页
AI中心
退出
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI 源力市场
寻求报道
一种用于视频字幕生成的跨模态结构对齐方法及系统
申请号:
CN202511273485
申请日期:
2025-09-08
公开号:
CN120997742A
公开日期:
2025-11-21
类型:
发明专利
摘要
本发明提供了一种用于视频字幕生成的跨模态结构对齐方法及系统,属于视频字幕生成技术领域。为了解决现有注意力机制中未考虑多模态或语言生成场景下的结构兼容性,且在模态融合过程中会产生噪声的问题。本发明考虑了多模态或语言生成场景下的结构兼容性,可以减少文本特征在和视觉特征融合之后特征损失,减少模态融合产生的噪声,缓解跨模态融合在语义映射空间的天然失配,进而提升模型对高阶语义关系的建模能力以及减少多模态融合后产生的负面影响。
技术关键词
视觉特征
对齐方法
字幕
文本
视频
生成场景
矩阵
对齐系统
语义
可读存储介质
多模态
生成技术
编码器
注意力机制
非线性
跨模态
计算机
噪声