摘要
本发明公开了一种基于人工智能的视频翻译方法和系统。该方法涉及视频翻译技术领域,包括以下步骤:原声音轨提取、目标AI说话人适配、AI配音生成和口型同步与视频合成。本发明通过采用音视频分离技术获取独立音频与视频流,通过语音分离模型提取多原声音轨;在预设音色库中匹配或生成适配的目标AI说话人模块;将原语言语音转文本并翻译为目标语言文本,再结合目标AI说话人模块合成AI配音音轨;最后将独立视频流与多AI配音音轨输入口型同步模型输出翻译后视频,提升AI配音的音色贴合度、语音质量及同一说话人语音一致性,同时提高了视频翻译的资源利用率与批量任务下的处理效率,解决了现有技术中视频翻译的质量和效率低的问题。