一种基于场景感知的智能字幕生成方法和系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于场景感知的智能字幕生成方法和系统
申请号:CN202511366907
申请日期:2025-09-24
公开号:CN120881222A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及一种基于场景感知的智能字幕生成方法和系统,通过动态提取视频的实时视觉特征并解析音频流,融合多模态信息建立智能决策模型,以实现字幕的生成与呈现与画面内容和语义上下文的深度协同,依据场景切换、人物动作、关键物体及画面焦点区域的变化,智能决策字幕触发的时机与位置,并采用避让算法确保字幕不会遮挡关键视觉元素,集成语音情感分析,据此动态调整字幕的字体颜色、描边及透明度等视觉特效,从而在准确传达语义信息的基础上,增强情感表现力与视觉舒适度。本发明有效解决了传统字幕生成技术中存在的视听信息割裂、遮挡画面、样式单一及缺乏情感适配等问题,显著提升了用户在各类视频观看场景中的综合体验。
技术关键词
智能字幕 生成方法 画面 场景 语音情感分析 焦点 坐标 HSV颜色直方图 语义 视觉特征 视觉显著性算法 物体 生成字幕 融合多模态信息 运动矢量分析 梅尔频率倒谱系数 透明度 LSTM神经网络 智能决策模型