GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻
9571点击    2026-04-24 08:17


硅谷今夜未眠!


就在刚刚,GPT-5.5震撼登场——OpenAI迄今最强、最全能的新一代旗舰模型。


它是一种全新级别的智能,彻底进化为Agent时代的「原生大脑」


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


没错,就是那个万众期待的「土豆」(Spud),终于在今天杀出来了。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


最值得看的是,GPT-5.5在各项基准测试中:全榜第一!


不论在编程、推理、数学,还是智能体任务上,Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了脚下。


相较于上一代,GPT-5.5 Thinking堪称「降维打击」,拉开了代际差距。


在AAI测试中,相同输出token下,GPT-5.5智能指数冠绝全球;另在ARC-AGI-2上,同样刷新了SOTA。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


奥特曼忍不住大加赞赏,「GPT-5.5既聪明又快速」。


每个token的速度与GPT-5.4一样快,且每个任务使用token量显著降低。


它可以几乎做到心领神会,知道自己该做什么!


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


总裁Greg激动称,「这朝着一种全新的计算机工作方式迈出了一步」。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


今天起,GPT-5.5在ChatGPT、Codex中正式上线。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


编程新王登场


Opus 4.7跌落神坛


先看最核心的编程领域,GPT-5.5可谓是打了一场漂亮的翻身仗!


用OpenAI的话来说,它是迄今为止最强大的智能体编程模型。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


Terminal-Bench 2.0测试考的是全链路Agent工程实力。


题目会给模型一个终端环境和一个模糊目标,让它自己规划路径、调工具、写脚本、处理报错、反复迭代。


在这里,GPT-5.5拿下82.7%,GPT-5.4是75.1%,Claude Opus 4.7只有69.4%。13个百分点的差距,碾压级别。


OpenAI内部的Expert-SWE评测,专门测那些人类预估中位完成时间20小时的长周期编程任务,GPT-5.5拿到73.1%,同样高于GPT-5.4的68.5%。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


在业界公认最能反映真实GitHub问题解决能力的评测SWE-Bench Pro中,GPT-5.5得分58.6%,略逊色于Claude Opus 4.7(64.3%)。


不过,OpenAI在这个数据旁边标了一个星号,写着「Anthropic报告称在部分问题子集上存在过拟合(记忆)迹象」。


换句话说就是,Opus 4.7虽然考试成绩好,但我怀疑你背过答案。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


Codex研究员直言:SWE-Bench早已不能衡量顶尖编程能力了


最关键是,在这三项的评估中,GPT-5.5使用了更少的token,但仍全面赶超GPT-5.4。


这一能力在Codex中,体现得更为明显。


它可以完成「端到端」的编程任务,从实现、重构到调试、测试和验证等流程。


举个栗子,让GPT-5.5做一个阿尔忒弥斯II太空任务可视化应用。


首先把一张任务的截图扔给GPT-5.5,然后要求用WebGL和Vite实现一个可交互的3D轨道模拟器,轨迹数据必须来自NASA/JPL Horizons的真实矢量数据,并且还要有逼真的轨道力学。


只见,GPT-5.5从零搭完,鼠标拖拽能转,猎户座飞船、月球、太阳的相对位置都对得上。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


再来一个坦克打飞碟。


Prompt要求用Three.js做一个UFO射击游戏,玩家控制坦克击落头顶飞过的飞碟,「低多边形但要好看」,先给出完整文件结构和需要改动的文件清单,再写全部代码,「完成之前不许停」。


GPT-5.5全部照单执行,从文件结构到Three.js渲染到射击判定,一口气交付了一个可玩的3D游戏。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


在3D地牢竞技场中,Codex包办游戏架构、TypeScript/Three.js实现、战斗系统、敌人遭遇和HUD反馈。


GPT生成了环境贴图,OpenAI API生成了角色对话,角色模型、贴图和动画来自第三方素材工具。几个AI各管一摊,拼出一款能打怪的游戏。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


早期测试的大佬直言, GPT‑5.5拥有更强的理解系统形态的能力。


它更能判断问题出在哪,修复该加在哪,以及代码库中还有哪些地方会受到牵连。


85% OpenAI员工用疯


这才是真正干活的AI


编程之外,GPT-5.5在「知识型工作」上的数据同样亮眼。


毕竟,OpenAI将其称为,「一种面向真实工作的全新智能」。


它能更快地理解你想要做什么,并在不同工具之间切换,直到任务完成。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GDPval,评估AI在44个职业中完成规范知识工作的水平,GPT-5.5拿到84.9%,Opus 4.7是80.3%,Gemini 3.1 Pro只有67.3%。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


OSWorld-Verified,测试模型能否独立操作真实电脑环境,GPT-5.5得分78.7%,和Opus 4.7的78.0%几乎打平。


Tau2-bench,测试模型能否在复杂客服工作流中处理多轮对话、查询系统、执行操作。,GPT-5.5在没有微调提示词的情况下达到98.0%。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


有意思的是OpenAI自己怎么用的。据官方博客披露,公司内部超过85%的员工每周跨部门使用Codex。


公关部门用GPT-5.5分析了六个月的演讲邀约数据,搭建了评分和风险框架,让低风险请求自动走Slack AI智能体处理。


财务部门审查了24,771份K-1税表,共71,637页,比去年提前两周完成。


市场团队实现了每周业务报告自动生成,每周省5到10个小时


如今,在Codex中,通过GPT-5.5可与Web应用直接交互,测试流程、点击页面、截取屏幕,并根据所见内容不断迭代,直到完成任务。


如下是,测试入职流程的一个例子。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


Codex还可以生成更高质量的电子表格、PPT和文档,如下是一个财务建模的demo。


应用内新增的文件查看器,可加快审阅、修订和迭代速度,让文件更快准备好分享。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


在计算机使用上,Codex操作电脑能力更强了。


无论是识别屏幕内容,还是点击、打字、导航,甚至是跨工具流转上下文信息,它都能轻松搞定。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


OpenAI研究员Noam Brown直言,有了GPT-5.5,自己也能像专业人士一样编写CUDA内核,运行研究实验。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


颠覆科研


证明「拉姆齐数」定理


除了这些,GPT-5.5还协助发现了一个关于拉姆齐数的新证明,并在Lean语言中得到了验证。


拉姆齐数是组合数学的核心研究对象,通俗地说就是一个网络大到什么程度,才一定会出现某种规律性结构。这个领域的新结果极其罕见。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


论文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf


这个领域的研究成果极其罕见,技术难度极高。GPT-5.5发现了一个关于非对角拉姆齐数长期渐近事实的证明。


不是写代码,不是做解释,是提出了一个有价值的数学论证。


GeneBench上,GPT-5.5得分25.0%,GPT-5.4是19.0%。这个评测专门测多阶段科学数据分析,要求模型在几乎没有人工干预的情况下处理模糊数据、应对隐藏混杂因素。


BixBench,基于真实生物信息学设计的评测,GPT-5.5在所有已公开分数的模型中排名第一,80.5%。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


FrontierMath Tier 4,由陶哲轩等顶级数学家策划的前沿数学题库中最难一档,题目涉及代数几何、数论等方向,难度接近未发表研究。


GPT-5.5得分35.4%,GPT-5.4是27.1%,Opus 4.7只有22.9%。差距超过12个百分点。


对比一下Tier 1-3的差距只有8个百分点(51.7% vs 43.8%),说明越到数学前沿,GPT-5.5的优势越悬殊。


Jackson基因医学实验室的免疫学教授Derya Unutmaz用GPT-5.5 Pro分析了一个包含62个样本、近28,000个基因的表达数据集。


模型出具了一份详尽的研究报告,不仅总结了发现,还深挖出关键问题和洞察。相比之下,如果这活儿让人类团队来干,得花上好几个月。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


波兹南·密茨凯维奇大学数学助教Bartosz Naskręcki在Codex中,仅用11分钟就从一个单一提示词构建了一个代数几何应用,可视化了二次曲面的交集,并将生成的曲线转换为Weierstrass模型。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


从编程到知识工作再到科研,升番到这里,结论摆在眼前。


GPT-5.5不是又一次「小版本迭代」,它是一次全新基座模型带来的整体性跃升。


全方位击败Opus 4.7,就看一张图


总言之,GPT-5.5的诞生,堪称迎来了脱胎换骨的蜕变。对战Opus 4.7,一张图就够了。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


另在Vending-Bench中,GPT-5.5同样暴击Opus 4.7。


Opus 4.7的表现跟4.6差不多:老是对供应商撒谎,还在退款上坑顾客。相比之下,GPT-5.5的手段就很正派,而且照样赢下了比赛。


奥特曼还玩个梗,「千万别转,千万别转,千万别转....哎,算了吧,生活终究是在模仿艺术」。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


定价翻倍


更强,但也更贵


说完实力,必须说钱。


GPT-5.5的API定价,每百万输入Token 5美元,每百万输出Token 30美元。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


GPT-5.4是多少?2.50美元和15美元。


整整翻了一倍。


GPT-5.5 Pro更夸张,输入30美元,输出180美元。


对比一下Opus 4.7,输入5美元,输出25美元。GPT-5.5的输入价格和Opus 4.7持平,但输出贵了20%。


OpenAI给出的解释是token效率提升。同样的Codex任务,GPT-5.5用的token比GPT-5.4明显更少。


更强,而且更高效。


但算一笔账就知道,如果一个团队每月在GPT-5.4上花10万美元,切换到GPT-5.5后即使token用量减少30%,月账单依然会涨到14万美元左右。


换句话说,GPT-5.5是一个「你为更强的智能付更多的钱」的溢价产品。相比之下,GPT-5.4大概率会继续作为性价比之选存在。


GPT-5.5来了!全榜第一碾压Opus 4.7,OpenAI今夜雪耻


OpenClaw已接入最强GPT-5.5


8天,一个时代的缩影


回头看这8天发生了什么。


4月16日,Anthropic用Opus 4.7在SWE-Bench Pro上发起突袭,从GPT-5.4手中夺走编程王座。


4月24日,GPT-5.5正式发布。Terminal-Bench碾压,定价翻倍,科研炸裂。


2026年的AI竞赛,已经不是「谁的模型更强」这一个维度的较量了。


在GPT-5.5的叙事里,OpenAI反复强调的是「探索全新的电脑办公方式」,一个能自主规划任务、调用多种工具、在浏览器和本地软件之间来回切换的通用Agent。


跑分是前菜,Agent化办公才是主战场。谁先定义「AI怎么替人干活」,谁就定义下一代电脑使用界面。


8天一个来回。这个节奏,只会更快。


参考资料:


https://openai.com/index/introducing-gpt-5-5/ 


https://x.com/OpenAI/status/2047376561205325845?s=20


文章来自于微信公众号 "新智元",作者 "新智元"

关键词: AI新闻 , GPT-5.5 , OpenAI , chatGPT
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0