AI资讯新闻榜单内容搜索-模型基准

GPT-5准确率不足40%！北大发布多模态、高难度化学基准SUPERChem

北大团队发布化学大模型基准SUPERChem，这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足，系统构建了评估大语言模型化学推理能力的新体系。

来自主题: AI技术研报

9196 点击 2025-12-15 15:16

视频大型语言模型（Video LLMs）的发展日新月异，它们似乎能够精准描述视频内容、准确的回答相关问题，展现出足以乱真的人类级理解力。

来自主题: AI技术研报

7208 点击 2025-08-02 12:43

世界模型领域最新进展，要比拼“世界生成”了。

来自主题: AI技术研报

10648 点击 2025-04-10 12:15

大模型基准测试还能信吗？

来自主题: AI技术研报

4415 点击 2024-09-11 11:43

最公平的大模型基准测试诞生了！来自LLM竞技场，最接近人类偏好，数据新鲜、速度快、成本低，严格分离学渣和学霸。

来自主题: AI技术研报

11160 点击 2024-05-20 16:20