语音处理方法、装置及XR设备

申请号：CN202511049200

申请日期：2025-07-29

公开号：CN120564748B

公开日期：2025-11-07

类型：发明专利

摘要

本发明提供一种语音处理方法、装置及XR设备，涉及语音处理技术领域，其中方法应用于扩展现实XR设备，包括：获取当前场景图像及用户的当前头部姿态数据；根据所述当前场景图像和所述当前头部姿态数据，确定目标注视对象；获取所述目标注视对象的实时音频数据和实时视频数据；通过语音分离模型，对所述实时音频数据和所述实时视频数据进行处理，确定所述目标注视对象的目标音频信号。本发明能够在不增加XR设备的额外硬件成本、且无需依赖目标说话对象的先验信息的前提下，准确地识别出目标说话对象的语音信号。

技术关键词

实时视频对象语音数据音频编码器音频解码器音视频人脸检测算法分块场景图像音频特征时间滑动窗口视觉特征坐标系信号序列