摘要
本申请公开了一种社交大语言模型测评方法、系统、设备和存储介质,方法包括:根据业务场景对社交大语言模型能力进行拆解和收集客观测评数据集;针对客观测评数据集中的各类题目构建不同人设背景的prompt,通过客观测评数据集对社交大语言模型进行客观测评,获取社交大语言模型的客观测评结果;与社交大语言模型进行模拟会话,根据社交大语言模型的会话输出进行模型情感满足度、人设一致性、回答连贯性以及风格显著性方面的评价,获取社交大语言模型的主观测评结果;根据社交大语言模型的客观测评结果和主观测评结果输出测评报告。本申请改善了现有技术测评内容过分集中在模型的知识理解方面,对用户体验不关注,测评内容不全面的技术问题。