AI资讯新闻榜单内容搜索-模型基准

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型基准
GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

北大团队发布化学大模型基准SUPERChem,这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足,系统构建了评估大语言模型化学推理能力的新体系。

来自主题: AI技术研报
9196 点击    2025-12-15 15:16
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。

来自主题: AI技术研报
7208 点击    2025-08-02 12:43
众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。

来自主题: AI技术研报
11160 点击    2024-05-20 16:20