摘要
本发明公开了一种视频手语问答方法、系统、设备及存储介质,它们是一一对应的方案,方案中:手语识别翻译技术利用自监督预训练技术来增强模型的表征能力,实现手语视频翻译并完成训练数据的充分利用,提升识别准确率;并且,利用大语言模型和知识检索技术,在知识库的约束下进行生成式问答,同时通过多次交互理解用户意图、保持上下文,完成复杂任务下的智能对话;此外,手语生成过程中,第一步将文字转化成符合手语语序的gloss,第二步将gloss转化为动作序列并驱动数字人,此步中,使用动作平滑和过渡生成技术对手语词的动作序列进行处理,减少动作的抖动问题,得到更加平滑的动作序列进行数字人驱动。