
GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人
GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人在知名AI排行榜LM Arena中,曾全班垫底的GPT-4.5竟一度拿下第一?甚至在数学、编程等领域表现优异,这反常的表现让网友们一度质疑:大模型竞技场莫非被LLM操纵了?不过网友们在实测后却惊讶发现,GPT-4.5的确情商爆表,不用推理就能理解人类的深层意图!
在知名AI排行榜LM Arena中,曾全班垫底的GPT-4.5竟一度拿下第一?甚至在数学、编程等领域表现优异,这反常的表现让网友们一度质疑:大模型竞技场莫非被LLM操纵了?不过网友们在实测后却惊讶发现,GPT-4.5的确情商爆表,不用推理就能理解人类的深层意图!
基础模型竞争又紧张刺激起来了!GPT-4.5刚登顶竞技场且全任务分类第一名,6小时后总榜就被马斯克的新版Grok-3反超。两者都是获得3000+票数,总分1412:1411只差一分。
GPT-4o悄悄更新版本,在大模型竞技场超越DeepSeek-R1登上并列第一。
刚刚,大模型竞技场榜单上再添一款国产模型——来自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。
前两天,在游戏论坛闲逛时,看见一个帖子说《逆水寒》手游更新了。这个 AI 浓度超高的游戏最近多了几位各有特色的「AI 娘」,还多了一种名叫「AI 大模型竞技场」的新玩法。
国产大模型首次在国际最具挑战的“大模型竞技场”榜单上超过GPT-4o(5月版本),当零一万物的名字紧跟在OpenAI、Google之后,李开复却如是坦言。
最近,在全球人工智能模型竞技场(Artificial Analysis)文生图模型排行榜中,一个名叫Red_panda的新模型突然杀出重围,以9%的胜率超越了原榜一大哥Flux1.1Pro成为新王!
国产大模型首次在公开榜单上超过GPT-4o! 就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)。
大模型竞技场规则更新,GPT-4o mini排名立刻雪崩,跌出前10。
有个怪事儿,前段时间,大模型竞技场上,一位代码为sus-column-r的匿名模型横空出世