评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024 关键词: AI,模型评估,Diff-eRank,人工智能 能够深入大模型内部的新评测指标来了! 上交大MIFA实验室提出了全新的大模型评估指标Diff-eRank。 不同于传统评测方法,Diff-eRank不研究模型输出,而是选择了分析其背后的隐藏表征。 来自主题: AI技术研报 2891 点击 2024-11-08 19:43