AI TNT— 让一部分先用AI实现商业化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Benchmark

苹果团队，又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。

来自主题: AI资讯

9078 点击 2024-08-14 17:25

Claude 3.5 Sonnet的图表推理能力，比GPT-4o高出了27.8%。针对多模态大模型在图表任务上的表现，陈丹琦团队提出了新的测试基准。新Benchmark比以往更有区分度，也让一众传统测试中的高分模型暴露出了真实能力。

来自主题: AI技术研报

7898 点击 2024-06-29 00:07

还有12款大模型全军覆没……

来自主题: AI资讯

8941 点击 2024-06-25 10:36

让大模型直接操纵格斗游戏《街霸》里的角色，捉对PK，谁更能打？GitHub上一种你没有见过的船新Benchmark火了。

来自主题: AI资讯

2120 点击 2024-04-01 18:30