答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思
答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思大语言模型(LLM)的迅速发展,引发了关于如何评估其公平性和可靠性的热议。
来自主题: AI技术研报
9252 点击 2024-06-17 19:37
大语言模型(LLM)的迅速发展,引发了关于如何评估其公平性和可靠性的热议。
如果考试题太简单,学渣也能拿一百昏。在 AI 圈,我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平?是高考题吗?当然不是!