AI资讯新闻榜单内容搜索-Arena

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Arena
AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

刚刚,LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不实。

来自主题: AI资讯
10472 点击    2025-05-01 14:07
速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

作为学术研究项目,原加州大学伯克利分校的Chatbot Arena,其网站已成为访客试用新人工智能模型的热门平台,现正转型为独立公司。

来自主题: AI资讯
8209 点击    2025-04-21 16:37
美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报
10103 点击    2025-04-02 14:58
奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

为了进一步挑战AI系统,大家已经开始研究一些最困难的竞赛中的问题,特别是国际奥林匹克竞赛和算法挑战。

来自主题: AI技术研报
5883 点击    2025-04-01 09:49
谷歌大型推理模型曝光!击败Claude-3.7-Thinking

谷歌大型推理模型曝光!击败Claude-3.7-Thinking

谷歌大型推理模型曝光!击败Claude-3.7-Thinking

哎!最近推特上的网友在LMSYS Arena 发现了个泄漏的大模型 Nebula,效果据说特别好,打败了o1、o3mini、Claude3.7 Thinking等等模型:网友们通过询问和分析 API,发现这似乎是谷歌正在秘密演练的新推理模型!推测可能是 Google Gemini 2.0 Pro Thinking:

来自主题: AI资讯
9263 点击    2025-03-24 14:41
GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

在知名AI排行榜LM Arena中,曾全班垫底的GPT-4.5竟一度拿下第一?甚至在数学、编程等领域表现优异,这反常的表现让网友们一度质疑:大模型竞技场莫非被LLM操纵了?不过网友们在实测后却惊讶发现,GPT-4.5的确情商爆表,不用推理就能理解人类的深层意图!

来自主题: AI资讯
7904 点击    2025-03-05 13:31
马斯克“地表最强”Grok 3炸场,竞技场首超1400分

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)!一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。

来自主题: AI资讯
10059 点击    2025-02-18 15:03
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估

被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估

被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估

还在用枯燥的数学题和编程题测试AI?落伍啦!现在,打游戏就能测出AI的真实力。GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。

来自主题: AI资讯
10268 点击    2025-02-12 17:08