GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem
GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem北大团队发布化学大模型基准SUPERChem,这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足,系统构建了评估大语言模型化学推理能力的新体系。
来自主题: AI技术研报
9196 点击 2025-12-15 15:16
北大团队发布化学大模型基准SUPERChem,这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足,系统构建了评估大语言模型化学推理能力的新体系。
视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。
世界模型领域最新进展,要比拼“世界生成”了。
大模型基准测试还能信吗?
最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。