谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答
7626点击    2025-10-20 12:40

Gemini 3.0传了这么久,终于还是露出「马脚」了。


依然还是LMAreana竞技场,Gemini 3.0的两个「马甲」被扒了出来。


  • Gemini 3.0 Pro的马甲:lithiumflow
  • Gemini 3.0 Flash的马甲:orionmist


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


这已经是「传统艺能」了,每次新模型上线,都要去LMArena上去造势一番。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


不过看了竞技场的实测结果,Gemini 3确实是真的有点东西,希望谷歌这次别再跟着OpenAI跑了,硬气一把!


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


此前Gemini 3的一些前端案例就曾流出,网友爆料称,谷歌下一代旗舰模型将在10月22日发布。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


一些拿到内测资格的开发者,放出了部分demo。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


不过这次是直接上线在LMArena竞技场里了。


「幸运」碰到Gemini 3马甲的用户分享了他们的例子,如果你也运气好,可以分享一下Gemini 3的表现是否有大幅度的提升。


AI第一次看懂钟表


实测「看表」一直是AI的大难题,这里面涉及多种因素,钟表样式、指针长短、指向、分钟间隔的判断等等。


不过Gemini 3 Pro(lithiumflow)的实测看出,这个模型已经可以精确到小时(6)、分钟(02)和秒(30)。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


同样的问题,GPT-5 Thinking就有点「发癫」,直接识别成了12:30,有点时针、分针不分了。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


用Gemini 2.5 Pro实测也是同样发癫,模型真的很难分辨时钟时间。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


作为对比,LMArena中其他非顶级模型,「发癫」程度要更甚。


另外,在LMArena中实测了N次,一直没有碰到过Gemini 3的马甲。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


如果竞技场里Gemini 3的马甲能力是真的,那确实Gemini 3还是非常值得期待!


SVG实测传统艺能,骑自行车的鹈鹕


新模型每次一出来,SVG测试是躲不开的。


Gemini 3 Pro的SVG测试效果,初看还是很不错的。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


画面表现能力比之前测试的提升了不止一点,能看出甚至具有一点「抽象派」的风格。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


当然,骑自行车的鹈鹕是永远躲不过的,起码这次自行车画的是真不错。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


不过需要吐槽的一点是,可能这个互联网模因meme「骑自行车的鹈鹕」成为了一个测试新模型的梗。


所以,各家模型似乎都悄悄的针对这个提示词,进行了微调。


比如下面这两个竞技场例子,不过没有强调使用SVG。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


即使强调了使用SVG,效果依然很「完美」,相比之下Gemini 3画出来的反而不好看,效果一般。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


第一个相当体面的作曲模型


另外一个大更新就是Gemini 3 Pro可以作曲了。


能模仿音乐风格,能长时间保持节奏,并带来一些活力和变奏。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答

谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


你觉得这个音乐效果如何?


目前大部分实测还是在LMArena碰运气。


(顺便吐槽一下,跑了快100个提示了,还是没碰到Gemini 3)


那为什么判断这两个马甲就是Gemini 3的实测代号呢?


有人说「Orion」本身可能和Gemini 3有关,而且「orionmist」这种两个单词合成方法是谷歌会使用的。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


此前,Gemini 3没上LMArena时,就有各种内测觉得这个很厉害。


甚至可以一个HTML符合整个MacOS、Windows系统的UI交互。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


甚至只有1分钟,Gemini 3 Pro就能用SVG做出一整个风格动画。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


截取了部分动画,这个效果看起来还是挺「唬人」的。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


不过,也有部分人遇到的实测效果并不理想。


谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答


谷歌的Gemini 2.5发布也快一年,目前各个大科技厂都盯着OpenAI的动作。


在OpenAI打出GPT-5和新版Sora 2两张牌以后,谷歌只跟了一张Veo 3.1。


这波上线LMArena的估计是发布前的试水了,Gemini 3应该很快了!


总的来说,虽然模型确实强了不少,能看表、能画SVG、还能作曲,但整个AI圈的「传统艺能」也越来越固定了——


先传风声、再上LMArena、然后一堆人去撞马甲、测SVG、看谁更像真货。


看多了也不免有点腻。


毕竟,无论是Gemini 3、GPT-5还是Claude新版本,最后都还是那一套「实测截图+prompt对比+看图说话」。 


模型越来越聪明,但我们的评测方式似乎还停在老套路上。 


希望下一次,不只是模型更强,而是真的能玩出点新花样。


参考资料:


https://x.com/synthwavedd/status/1979969871921225881


https://x.com/ai_for_success/status/1979980654713696340


https://x.com/scaling01/status/1979996937743954101


https://x.com/scaling01/status/1979996937743954101



文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0