摘要
本发明涉及人工智能技术领域,公开了一种基于大语言模型评价的共情对话生成方法和系统;方法包括:基于共情对话数据集对基础生成模型进行监督微调;基于生成模型对输入的对话历史文本生成多个候选回复文本;依据心理量表使用大语言模型对回复文本标签进行共情评分;根据共情评分结果构建偏好对数据;引入实例级奖励间隔机制,对每个回复偏好对赋予个性化正则约束,优化生成模型,得到完成训练的生成模型。本发明依托心理量表与大语言模型强大的推理与泛化能力,鲁棒地评估对话的共情程度,并以此精准地选取高质量的偏好对。在此学习框架下,模型通过多轮迭代持续优化,从而显著提升生成对话的共情表现。