AI资讯新闻榜单内容搜索-SimpleQA

史上最严“中文真实性评估”：OpenAI o1第1豆包第2，其它全部不及格

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。

来自主题: AI技术研报

9560 点击 2024-11-21 13:47

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报

10259 点击 2024-11-20 15:02

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

一个简单但具有挑战性的基准

来自主题: AI技术研报

7148 点击 2024-11-01 10:27