Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!
8795点击    2026-05-22 09:56

昨天,想必大家都被 Google IO 大会刷屏了。


大家期待已久的 Gemini 3.5 Flash,终于走到台前了。


Google 官方给了它三个关键词:智能、速度、长链路能力。


注意啊,还特意强调了 Gemini 的输出速度比「其他前沿模型」快 4 倍。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


这针对性不要太强。。。


发布会后,很快就有人开始把 Gemini 3.5 Flash 拉出来和  GPT 5.5 、 Claude Opus 4.7 做对比。


有人说,模型质量已经接近 GPT 5.5 水平,但成本比 GPT 5.5 更低。


有一说一,由于当年 3.1 Flash 表现确实太降智,我一开始觉得这话有吹的成分在,所以我也赶紧去实测了一下。


一、前端设计能力


其实 Gemini 以前就挺擅长做前端页面,很多开发者用它生成网页、UI 设计,效果一直不错。


从 Gemini 2.5 Pro 开始,Google 就一直在强调它的前端开发能力。


这次我让 Gemini 3.5 和 GPT 5.5 给我设计个人网站的前端页面。


提示词如下:


帮我设计一个 JackCui 个人网站首页,风格参考高端 AI SaaS 官网:暗黑科技感、极简、高级、有强烈视觉聚焦。页面要有黑色宇宙背景、紫蓝霓虹光晕、大标题、明显 CTA 按钮、悬浮卡片、玻璃拟态效果,整体审美接近 Apple、Linear、Framer、Vercel 的混合风格。


GPT 5.5 给的结果:


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


效果还不错,布局挺有美感的,特别是开屏页面的元素设计,我很喜欢。


Gemini 3.5 Flash 给的效果:


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


虽然美感上欠缺一点,但它在中文页面上的细节处理出乎意料地干净:标题、导航、CTA、模块说明都挺稳的。没有出现按钮被汉字撑爆、卡片网格挤压错位、行高过窄贴成一坨这种 CJK 老毛病。


以我个人观感来看,还是比较不错的。


接着,我去跑了一下3D模型。


提示词:生成一个皮克斯风格的咖啡杯3D模型,页面可以旋转查看,有丰富的光影细节。


这是GPT 5.5的结果,充分理解了「皮克斯」的拟人化风格,而且还生动地生成了咖啡上的热气。美中不足的是,把手生成的方向非常怪异,浅浅有点翻车。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


这是 Gemini 3.5 的结果,粉白配色,很是Q萌。把手没有翻车。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


下面,我让两个模型都生成了一个赛马小游戏。


提示词:

请生成一个可运行的 HTML 单文件像素风小游戏。游戏题材:像素赛马 / 街机赛马下注。玩家开局拥有 1000 金币,每局比赛前,玩家需要选择一匹马下注,并输入下注金额。点击“开始比赛”后,4 匹马同时起跑。比赛过程中,马匹速度会随机波动,可能出现:短暂冲刺、体力下降、被其他马反超、最后 20% 距离触发冲刺阶段。


GPT 5.5 生成的小游戏界面丰富,不仅每匹马还有自己的介绍,而且等待区的马匹还会不停闪烁。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


这是 Gemini 3.5 的结果,不仅生成了观众席,而且还自主生成了结算页面,略胜 GPT 5.5 一筹。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


这轮测下来,我的感觉是:


GPT 5.5 更像是一个审美很强的高级前端设计师,出图高级,页面精致,第一眼很抓人。


Gemini 3.5 Flash 更像是一个产品感更强的前端工程师,虽然视觉没那么惊艳,但它更愿意把场景补完整,把中文排版、交互流程、结果反馈这些落地细节做出来。


如果要做官网首屏,我可能还是更喜欢 GPT 5.5。


但如果要做一个真的能跑、能玩、能本地化、能补齐用户体验的小前端项目,那 Gemini 3.5 Flash 确实更合适。


二、推理能力


我制作了一份手写的生物实验室笔记,让两个模型同时解读它的意思,并且推理此次研发所在的场景。


这个 case 也会同时考察模型的多模态能力,比如OCR识别功能是否好用。


这是Gemini 3.5 Flash的结果:


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


GPT 5.5 的结果如下,由于它的回复比较详细,我这里只放部分:


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


两个模型都能理解笔记的内容,并且推理出笔记发生的场景,专业术语的识别也没有幻觉。


但是 GPT 5.5 的答案略显啰嗦了,更适合不懂这个行业的人看。Gemini 3.5 Flash 的回答倒是一针见血,简洁明了,我还挺喜欢的。


值得一提的是,GPT 5.5 并未正确识别“郑州大学”的logo。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash却识别成功了,这次, Gemini 的多模态确实有所进步。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


然后,我让两个模型同时推理并预测下一届世界杯的冠军。


GPT 5.5 仍旧是啰啰嗦嗦一大段,但也给出了一个答案:


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


还顺带分析了一下巴西没有夺冠的原因,可以说活人感很重了。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


这是 Gemini 3.5 的答案:


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


个人认为,GPT 5.5 的分析更客观、更专业。


三、上下文能力、写作能力


大模型现在动不动宣传 100 万、200 万 token 上下文窗口,但实际操作起来却经常是:头尾的内容记得清清楚楚,中段塞进去的东西,什么也记不住。


我决定做一个大海捞针测试,给了两个模型《武林外传》的部分剧本,并且在其中藏了三次异常命令:「月亮把钥匙吞进了冰箱」。


令我失望的是,没有一个模型识别出来。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


最后,测了一下两个模型的写作能力。


Gemini 3.5 Flash 的表现竟然出乎意料地好,答案放在了下面。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


这是 GPT 5.5 的答案:


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


题目要求 300 字。Gemini 3.5 Flash 给的故事大概 320 字上下,GPT 5.5 的全文则在 450–500 字之间,超出 50% 左右。遵守约束是考察的标准之一,GPT 这一项直接失分。


另外,题眼是「科幻短文」,GPT 5.5 写的其实是一篇谍战短文,科幻感不强,剧情也有点摸不着头脑。


特别是提示词里规定:男主不能说话, GPT-5.5 就直接给男主挂上了禁止发声的牌子,有种生搬硬套的笨拙感。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


综合来看,这一回合 Gemini 3.5 Flash 胜出。


四、絮叨


根据官方数据来看,Gemini 3.5 Flash 这次的纸面成绩很亮眼。它最强的地方,主要集中在三类任务。


第一是速度,官方强调 Gemini 3.5 Flash 的输出速度比其他前沿模型快 4 倍,这也是它最容易被感知到的优势。


第二是工具调用,比如 MCP Atlas,Gemini 3.5 Flash 是 83.6%,GPT 5.5 是 75.3%。


第三是多模态理解,比如 MMMU-Pro,Gemini 3.5 Flash 是 83.6%,GPT 5.5 是 81.2%。


除开这三类任务,GPT 5.5 的测试数据仍旧更胜一筹。


比如:


代码执行测试,GPT 5.5 是 78.2%,Gemini 3.5 Flash 是 76.2%。


长上下文信息定位,GPT 5.5 是 94.8%,Gemini 3.5 Flash 是 77.3%。


抽象逻辑推理,GPT 5.5 是 84.6%,Gemini 3.5 Flash 是 72.1%。


我个人觉得,以 Gemini 3.5 Flash 现在这个测评质量,夸一下是完全没问题的。


但也不能因为它快,就直接说它全面超过 GPT 5.5。


毕竟两个模型的能力侧重点不一样。Gemini 3.5 Flash 是一个速度快、工具调用能力强的模型;GPT 5.5 则是一个在复杂推理、长任务和代码质量上更稳的模型。


成本上,Gemini 3.5 Flash 并没有如传闻中便宜。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


x上有位网友 Theo 的观点比较有意思:


他认为,Gemini 3.5 Flash 当然快,它的问题是太吃 token 了。


不能只看每百万 token 的标价,因为真实使用时,模型到底要消耗多少 token,才决定最后你要付多少钱。


在 Artificial Analysis 的测试里,GPT-5.5 Medium 用了大约 2200 万 token,成本 1199 美元,得分 57;而 Gemini 3.5 Flash 用了大约 7300 万 token,成本 1522 美元,得分 55。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


Theo 的结论是:Gemini 3.5 Flash 看起来便宜,但在某些复杂任务里,总成本未必便宜,性价比也未必压过 GPT-5.5 Medium。


除了 Gemini 3.5 Flash,今年 Google IO 大会还发布了一系列很有趣的东西:


第一,这次 Google 对 Search 的改动非常大。AI Mode 被推到更核心的位置。以后搜索不只是给你十个蓝色链接,而是会根据你的问题,直接生成答案、图片、视频、时间线,甚至还能帮你做计划、生成表格、创建日程。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


这件事我还挺期待的。


因为搜索一旦从「信息入口」变成「行动入口」,传统网页的流量逻辑、SEO 逻辑、广告逻辑,都会被重新改写。


第二个就是Google 版的日常 Agent: Gemini Spark。它可以结合 Gmail、Calendar 这些服务做旅行规划、约会安排、信息整理。它的核心优势更多还是建立在 Google 生态上,对我们来说,短期内可能还没那么强的体感。


一方面国内用户本来就不怎么重度依赖 Google 全家桶。另一方面,这类 Agent 也高度依赖权限和生态。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


第三个,是视频生成模型 Gemini Omni,它的核心卖点不是单纯「生成一段视频」,而是更强调对视频细节的理解和修改。


比如改某个局部元素、调整画面风格、编辑已有视频内容。


这个方向是对的。


因为接下来视频生成真正要卷的,就是精控。


不过现在 Seedance 2.0 珠玉在前,Gemini Omni 想要一下子打穿这个市场,难度还是挺大的。


Gemini 3.5 Flash vs GPT 5.5 实测,全网首发!


第四个,是 Google Antigravity,这是开发者方向的重点。


Google 官方把它叫做 agent-first development platform,说白了,就是不再只是让 AI 帮你补代码,而是让 Agent 帮你计划任务、执行代码。


这个东西我觉得有点像 Google 版的 Codex / Claude Code 路线。


但它的问题也很明显。现在写代码,很多人第一反应是 Claude Code、Cursor、Codex,而不是 Google 的某个产品,Google Antigravity 的改版有点晚了。


Google 这波操作,让我想起当年的微软。


微软可怕的地方,不是它每一次都第一个做出新东西,而是它手里有入口。


PC 时代,它有 Windows;办公时代,它有 Office;开发者生态里,它后来又有了 GitHub 和 VS Code。


所以很多产品一旦被微软塞进自己的体系里,意义就会变得完全不一样。


它不是单独跟你拼一个功能,而是把这个功能变成系统默认的一部分,变成用户每天绕不开的东西。


Google 现在做 AI,其实也是这个逻辑。


单看这些产品,每一个都未必绝对领先。


但它们一旦被放进搜索、Chrome、Gmail、Calendar、YouTube、Android 这些入口里,AI 就不再只是一个你主动打开的聊天框,而是会变成一种默认存在的能力。


所以真正重要的,不只是哪个模型跑分第一,而是谁离用户最近。


谁能出现在用户搜索、写邮件、看视频、写代码、安排日程、打开手机的那一刻,谁就有机会重新定义下一代 AI 产品。


文章来自于"JackCui",作者 "JackCui"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0