一种基于场景感知的智能字幕生成方法和系统

申请号：CN202511366907

申请日期：2025-09-24

公开号：CN120881222A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及一种基于场景感知的智能字幕生成方法和系统，通过动态提取视频的实时视觉特征并解析音频流，融合多模态信息建立智能决策模型，以实现字幕的生成与呈现与画面内容和语义上下文的深度协同，依据场景切换、人物动作、关键物体及画面焦点区域的变化，智能决策字幕触发的时机与位置，并采用避让算法确保字幕不会遮挡关键视觉元素，集成语音情感分析，据此动态调整字幕的字体颜色、描边及透明度等视觉特效，从而在准确传达语义信息的基础上，增强情感表现力与视觉舒适度。本发明有效解决了传统字幕生成技术中存在的视听信息割裂、遮挡画面、样式单一及缺乏情感适配等问题，显著提升了用户在各类视频观看场景中的综合体验。

技术关键词

智能字幕生成方法画面场景语音情感分析焦点坐标 HSV颜色直方图语义视觉特征视觉显著性算法物体生成字幕融合多模态信息运动矢量分析梅尔频率倒谱系数透明度 LSTM神经网络智能决策模型