AI资讯新闻榜单内容搜索-Video-MME

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Video-MME

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及 3300 + 人工时高质量标注，揭示模型与人类的巨大鸿沟（49 vs 90）、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报

10466 点击 2026-04-13 15:01

南大团队直击大模型高分神话：人类90分，最强模型仅49分

南大团队直击大模型高分神话：人类90分，最强模型仅49分

南大团队直击大模型高分神话：人类90分，最强模型仅49分

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及3300+人工时高质量标注，揭示模型与人类的巨大鸿沟（49vs90）、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报

7950 点击 2026-04-13 13:48

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

融合物理知识的大型视频语言模型PhysVLM，开源了！它不仅在 PhysGame 基准上展现出最先进的性能，还在通用视频理解基准上（Video-MME, VCG）表现出领先的性能。

来自主题: AI技术研报

9070 点击 2024-12-06 17:45

首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

近日，首个多模态LLM视频分析综合评估基准Video-MME诞生！在这场全新的考试中，Gemini 1.5 Pro一路遥遥领先，谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。

来自主题: AI资讯

5117 点击 2024-06-28 16:24

Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

OpenAI和谷歌接连两场发布会，把AI视频推理卷到新高度。但业界还缺少可以全面评估大模型视频推理能力的基准。终于，多模态大模型视频分析综合评估基准Video-MME，全面评估多模态大模型的综合视频理解能力，填补了这一领域的空白。

来自主题: AI技术研报

8189 点击 2024-06-17 23:41

上一页当前第1页,共1页下一页