
真实评估!北理发布全球首个「全场景教育」基准,支持4000+情境
真实评估!北理发布全球首个「全场景教育」基准,支持4000+情境发展教育大模型需要新的数据和评估体系!北京理工大学高扬老师团队推出EduBench,是首个专为教育场景打造的综合评估基准,涵盖9大教育场景、12个多视角评估维度、超4000个教育情境。通过多维度评估指标体系和人工标注一致性计算,确保评估可靠性,助力教育大模型发展,推动教育智能化。
来自主题: AI技术研报
7927 点击 2025-06-03 16:47