基于大语言模型的语音交互方法及相关装置

申请号：CN202510272830

申请日期：2025-03-07

公开号：CN120091103A

公开日期：2025-06-03

类型：发明专利

摘要

本公开提供了基于大语言模型的语音交互方法及相关装置，涉及语音识别、音频处理、计算机视觉、大语言模型等人工智能技术领域。该方法包括：基于物理环境中采集到的实时音频流，确定物理环境中所包括的用户以及用户在物理环境中所处的第一位置；在针对物理环境呈现的语音交互界面中，与目标指示符相关联地呈现对应于用户的用户指示符，用户指示符与目标指示符的相对位置关系，基于第一位置与目标指示符在物理环境中对应的第二位置的相对位置关系被确定；基于实时音频流中对应于用户的部分，调整用户指示符的视觉呈现属性。由此，能够方便用户更为直观、便利地理解会议中用户之间的交互状态、交互情况，降低了用户的交互复杂度，提升用户体验。

技术关键词

语音交互方法大语言模型音频物理动态指示符身份时差定位算法界面声音采集设备语音交互装置人工智能技术关系计算机程序产品计算机视觉处理器通信定位单元