
中文大模型幻觉测评系列:事实性幻觉测评结果发布!
中文大模型幻觉测评系列:事实性幻觉测评结果发布!SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。
来自主题: AI资讯
7731 点击 2025-04-15 17:04
SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。
大模型长期以来一直存在一个致命的问题,即生成幻觉。由于数据集的复杂性,难免会包含过时和错误的信息,这使得输出质量面临着极大的挑战。过多的重复信息还可能导致大型模型产生偏见,这也算是一种形式的幻觉。
大模型就是「造梦机」!幻觉是LLM与生俱来的特性,而非缺陷。OpenAI科学家Andrej Karpathy独特视角在AI社区掀起了激烈的讨论。