
史上最严“中文真实性评估”:OpenAI o1第1豆包第2,其它全部不及格
史上最严“中文真实性评估”:OpenAI o1第1豆包第2,其它全部不及格新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。
来自主题: AI技术研报
7289 点击 2024-11-21 13:47
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。
如何解决模型生成幻觉一直是人工智能(AI)领域的一个悬而未解的问题。为了测量语言模型的事实正确性,近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域,目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。
一个简单但具有挑战性的基准