摘要
本申请公开了一种多模态生成式对话任务处理方法、装置及设备,包括:接收输入的文本内容、视觉内容和流式语音提问内容;当利用目标生成式对话任务处理模型中的全双工检测头检测到流式语音提问内容接收完成时,利用音频编码器对流式语音提问内容进行编码,并利用音频适配器将编码得到的音频特征向量转化为预设统一语义空间的第一词元;利用文本编码器对文本内容进行编码,得到预设统一语义空间的第二词元;利用视觉编码器对视觉内容进行编码,并利用视觉适配器将编码得到的图像特征向量转化为预设统一语义空间的第三词元;根据第一词元、第二词元和第三词元预测生成应答内容。本申请提升了语音判停效果,提高了应答内容的准确性。