苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。
来自主题: AI资讯
9078 点击 2024-08-14 17:25
苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。
Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
还有12款大模型全军覆没……
让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?GitHub上一种你没有见过的船新Benchmark火了。