摘要
本发明涉及自然语言处理技术领域,公开了一种大语言模型临床诊断能力细粒度评估方法及系统。方法包括:获取包患者病历数据集;同步执行以下任务:基于预定评分维度对问题‑标准答案‑模型回答三元组进行评分,计算被评估模型的医学知识得分;被评估模型执行召回任务和鉴别任务,对鉴别诊断列表进行确认或排除,得到最终主诊断;将患者病历中的和被评估模型输出的鉴别诊断列表和最终主诊断以进行链接;基于链接结果分析影响被评估模型临床诊断能力的因素。本发明旨在基于相同的临床诊断情境,深入且同步地评估大语言模型的医学知识与推理能力。