AI资讯新闻榜单内容搜索-Arena

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

大模型竞技场的可信度，再次被锤。

来自主题: AI技术研报

9450 点击 2025-05-02 17:56

AI圈惊天丑闻，Meta作弊刷分实锤？顶级榜单曝黑幕，斯坦福MIT痛斥

刚刚，LMArena陷入了巨大争议，斯坦福MIT和Ai2等的研究者联手发论文痛斥，这个排行榜已经被Meta等公司利用暗中操作排名！Karpathy也下场帮忙锤了一把。而LMArena官方立马回应：论文存在多处错误，指控不实。

来自主题: AI资讯

10472 点击 2025-05-01 14:07

速递｜不站队的AI裁判要赚钱了？Chatbot Arena转型公司化运营且计划融资

作为学术研究项目，原加州大学伯克利分校的Chatbot Arena，其网站已成为访客试用新人工智能模型的热门平台，现正转型为独立公司。

来自主题: AI资讯

8209 点击 2025-04-21 16:37

Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开

Llama 4真要被锤爆了，这次是大模型竞技场（Chatbot Arena）官方亲自下场开怼：

来自主题: AI资讯

5800 点击 2025-04-08 16:15

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

在数学推理中，大语言模型存在根本性局限：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报

10103 点击 2025-04-02 14:58

奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

为了进一步挑战AI系统，大家已经开始研究一些最困难的竞赛中的问题，特别是国际奥林匹克竞赛和算法挑战。

来自主题: AI技术研报

5883 点击 2025-04-01 09:49

谷歌大型推理模型曝光！击败Claude-3.7-Thinking

哎！最近推特上的网友在LMSYS Arena 发现了个泄漏的大模型 Nebula，效果据说特别好，打败了o1、o3mini、Claude3.7 Thinking等等模型：网友们通过询问和分析 API，发现这似乎是谷歌正在秘密演练的新推理模型！推测可能是 Google Gemini 2.0 Pro Thinking：

来自主题: AI资讯

9263 点击 2025-03-24 14:41