基于大规模预训练模型Whisper的深度伪造音频检测防护方法
申请号:CN202510297989
申请日期:2025-03-13
公开号:CN120126481B
公开日期:2025-09-30
类型:发明专利
摘要
本发明公开了基于大规模预训练模型Whisper的深度伪造音频检测防护方法,包括步骤S1:将待检测音频输入到预训练模型Whisper,在每个音频片段的微调过程中使用整个音频的转录文本作为提示,从而使得模型Whisper能够利用全局文本信息;步骤S2:在训练和解码过程中,对音频数据进行预处理以适配模型Whisper;步骤S3:通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能。本发明公开的基于大规模预训练模型Whisper的深度伪造音频检测防护方法,通过迁移学习实现音频真伪鉴别。不同于现有语音分类或识别任务,还通过创新性的微调策略,将音频的完整转录文本作为提示信息嵌入到解码器中,跨越了传统声学特征单一依赖的问题。
技术关键词
检测防护方法
音频
预训练模型
文本
解码器
微调方法
声学特征
标记
编码器
序列
参数
数据
语音
策略
标签
注意力
定义
令牌
决策