语音处理方法、装置及XR设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
语音处理方法、装置及XR设备
申请号:CN202511049200
申请日期:2025-07-29
公开号:CN120564748B
公开日期:2025-11-07
类型:发明专利
摘要
本发明提供一种语音处理方法、装置及XR设备,涉及语音处理技术领域,其中方法应用于扩展现实XR设备,包括:获取当前场景图像及用户的当前头部姿态数据;根据所述当前场景图像和所述当前头部姿态数据,确定目标注视对象;获取所述目标注视对象的实时音频数据和实时视频数据;通过语音分离模型,对所述实时音频数据和所述实时视频数据进行处理,确定所述目标注视对象的目标音频信号。本发明能够在不增加XR设备的额外硬件成本、且无需依赖目标说话对象的先验信息的前提下,准确地识别出目标说话对象的语音信号。
技术关键词
实时视频 对象 语音 数据 音频编码器 音频解码器 音视频 人脸检测算法 分块 场景 图像 音频特征 时间滑动窗口 视觉特征 坐标系 信号 序列