摘要
本发明涉及数据处理技术领域,提供一种问答模型评测方法及装置,包括:将评测数据集中的历史问答对、多个指令文档、用户查询问答对中的问题以及第一提示词输入至待测问答模型,得到待测问答模型按所述第一提示词推理输出的用户查询问答对中问题的预测答案和预测步骤序列;其中,多个指令文档是基于用户查询文本检索得到的,历史问答对和用户查询问答对中的问题是第一大模型基于指令文档生成的,标准答案和标准步骤序列是第一大模型基于历史问答对、多个指令文档和用户查询问答对中的问题生成的;对比标准答案和预测答案,对比标准步骤序列和预测步骤序列,得到评测结果。本发明实现了在多步骤、流程化指令的场景下,对待测问答模型的有效评测。