GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

10852点击 2026-04-24 08:17

硅谷今夜未眠！

就在刚刚，GPT-5.5震撼登场——OpenAI迄今最强、最全能的新一代旗舰模型。

它是一种全新级别的智能，彻底进化为Agent时代的「原生大脑」。

没错，就是那个万众期待的「土豆」（Spud），终于在今天杀出来了。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

最值得看的是，GPT-5.5在各项基准测试中：全榜第一！

不论在编程、推理、数学，还是智能体任务上，Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了脚下。

相较于上一代，GPT-5.5 Thinking堪称「降维打击」，拉开了代际差距。

在AAI测试中，相同输出token下，GPT-5.5智能指数冠绝全球；另在ARC-AGI-2上，同样刷新了SOTA。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

奥特曼忍不住大加赞赏，「GPT-5.5既聪明又快速」。

每个token的速度与GPT-5.4一样快，且每个任务使用token量显著降低。

它可以几乎做到心领神会，知道自己该做什么！

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

总裁Greg激动称，「这朝着一种全新的计算机工作方式迈出了一步」。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

今天起，GPT-5.5在ChatGPT、Codex中正式上线。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

编程新王登场

Opus 4.7跌落神坛

先看最核心的编程领域，GPT-5.5可谓是打了一场漂亮的翻身仗！

用OpenAI的话来说，它是迄今为止最强大的智能体编程模型。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

Terminal-Bench 2.0测试考的是全链路Agent工程实力。

题目会给模型一个终端环境和一个模糊目标，让它自己规划路径、调工具、写脚本、处理报错、反复迭代。

在这里，GPT-5.5拿下82.7%，GPT-5.4是75.1%，Claude Opus 4.7只有69.4%。13个百分点的差距，碾压级别。

OpenAI内部的Expert-SWE评测，专门测那些人类预估中位完成时间20小时的长周期编程任务，GPT-5.5拿到73.1%，同样高于GPT-5.4的68.5%。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

在业界公认最能反映真实GitHub问题解决能力的评测SWE-Bench Pro中，GPT-5.5得分58.6%，略逊色于Claude Opus 4.7（64.3%）。

不过，OpenAI在这个数据旁边标了一个星号，写着「Anthropic报告称在部分问题子集上存在过拟合（记忆）迹象」。

换句话说就是，Opus 4.7虽然考试成绩好，但我怀疑你背过答案。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

Codex研究员直言：SWE-Bench早已不能衡量顶尖编程能力了

最关键是，在这三项的评估中，GPT-5.5使用了更少的token，但仍全面赶超GPT-5.4。

这一能力在Codex中，体现得更为明显。

它可以完成「端到端」的编程任务，从实现、重构到调试、测试和验证等流程。

举个栗子，让GPT-5.5做一个阿尔忒弥斯II太空任务可视化应用。

首先把一张任务的截图扔给GPT-5.5，然后要求用WebGL和Vite实现一个可交互的3D轨道模拟器，轨迹数据必须来自NASA/JPL Horizons的真实矢量数据，并且还要有逼真的轨道力学。

只见，GPT-5.5从零搭完，鼠标拖拽能转，猎户座飞船、月球、太阳的相对位置都对得上。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

再来一个坦克打飞碟。

Prompt要求用Three.js做一个UFO射击游戏，玩家控制坦克击落头顶飞过的飞碟，「低多边形但要好看」，先给出完整文件结构和需要改动的文件清单，再写全部代码，「完成之前不许停」。

GPT-5.5全部照单执行，从文件结构到Three.js渲染到射击判定，一口气交付了一个可玩的3D游戏。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

在3D地牢竞技场中，Codex包办游戏架构、TypeScript/Three.js实现、战斗系统、敌人遭遇和HUD反馈。

GPT生成了环境贴图，OpenAI API生成了角色对话，角色模型、贴图和动画来自第三方素材工具。几个AI各管一摊，拼出一款能打怪的游戏。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

早期测试的大佬直言， GPT‑5.5拥有更强的理解系统形态的能力。

它更能判断问题出在哪，修复该加在哪，以及代码库中还有哪些地方会受到牵连。

85% OpenAI员工用疯

这才是真正干活的AI

编程之外，GPT-5.5在「知识型工作」上的数据同样亮眼。

毕竟，OpenAI将其称为，「一种面向真实工作的全新智能」。

它能更快地理解你想要做什么，并在不同工具之间切换，直到任务完成。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

GDPval，评估AI在44个职业中完成规范知识工作的水平，GPT-5.5拿到84.9%，Opus 4.7是80.3%，Gemini 3.1 Pro只有67.3%。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

OSWorld-Verified，测试模型能否独立操作真实电脑环境，GPT-5.5得分78.7%，和Opus 4.7的78.0%几乎打平。

Tau2-bench，测试模型能否在复杂客服工作流中处理多轮对话、查询系统、执行操作。，GPT-5.5在没有微调提示词的情况下达到98.0%。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

有意思的是OpenAI自己怎么用的。据官方博客披露，公司内部超过85%的员工每周跨部门使用Codex。

公关部门用GPT-5.5分析了六个月的演讲邀约数据，搭建了评分和风险框架，让低风险请求自动走Slack AI智能体处理。

财务部门审查了24,771份K-1税表，共71,637页，比去年提前两周完成。

市场团队实现了每周业务报告自动生成，每周省5到10个小时。

如今，在Codex中，通过GPT-5.5可与Web应用直接交互，测试流程、点击页面、截取屏幕，并根据所见内容不断迭代，直到完成任务。

如下是，测试入职流程的一个例子。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

Codex还可以生成更高质量的电子表格、PPT和文档，如下是一个财务建模的demo。

应用内新增的文件查看器，可加快审阅、修订和迭代速度，让文件更快准备好分享。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

在计算机使用上，Codex操作电脑能力更强了。

无论是识别屏幕内容，还是点击、打字、导航，甚至是跨工具流转上下文信息，它都能轻松搞定。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

OpenAI研究员Noam Brown直言，有了GPT-5.5，自己也能像专业人士一样编写CUDA内核，运行研究实验。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

颠覆科研

证明「拉姆齐数」定理

除了这些，GPT-5.5还协助发现了一个关于拉姆齐数的新证明，并在Lean语言中得到了验证。

拉姆齐数是组合数学的核心研究对象，通俗地说就是一个网络大到什么程度，才一定会出现某种规律性结构。这个领域的新结果极其罕见。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

论文地址：https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

这个领域的研究成果极其罕见，技术难度极高。GPT-5.5发现了一个关于非对角拉姆齐数长期渐近事实的证明。

不是写代码，不是做解释，是提出了一个有价值的数学论证。

GeneBench上，GPT-5.5得分25.0%，GPT-5.4是19.0%。这个评测专门测多阶段科学数据分析，要求模型在几乎没有人工干预的情况下处理模糊数据、应对隐藏混杂因素。

BixBench，基于真实生物信息学设计的评测，GPT-5.5在所有已公开分数的模型中排名第一，80.5%。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

FrontierMath Tier 4，由陶哲轩等顶级数学家策划的前沿数学题库中最难一档，题目涉及代数几何、数论等方向，难度接近未发表研究。

GPT-5.5得分35.4%，GPT-5.4是27.1%，Opus 4.7只有22.9%。差距超过12个百分点。

对比一下Tier 1-3的差距只有8个百分点（51.7% vs 43.8%），说明越到数学前沿，GPT-5.5的优势越悬殊。

Jackson基因医学实验室的免疫学教授Derya Unutmaz用GPT-5.5 Pro分析了一个包含62个样本、近28,000个基因的表达数据集。

模型出具了一份详尽的研究报告，不仅总结了发现，还深挖出关键问题和洞察。相比之下，如果这活儿让人类团队来干，得花上好几个月。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

波兹南·密茨凯维奇大学数学助教Bartosz Naskręcki在Codex中，仅用11分钟就从一个单一提示词构建了一个代数几何应用，可视化了二次曲面的交集，并将生成的曲线转换为Weierstrass模型。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

从编程到知识工作再到科研，升番到这里，结论摆在眼前。

GPT-5.5不是又一次「小版本迭代」，它是一次全新基座模型带来的整体性跃升。

全方位击败Opus 4.7，就看一张图

总言之，GPT-5.5的诞生，堪称迎来了脱胎换骨的蜕变。对战Opus 4.7，一张图就够了。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

另在Vending-Bench中，GPT-5.5同样暴击Opus 4.7。

Opus 4.7的表现跟4.6差不多：老是对供应商撒谎，还在退款上坑顾客。相比之下，GPT-5.5的手段就很正派，而且照样赢下了比赛。

奥特曼还玩个梗，「千万别转，千万别转，千万别转....哎，算了吧，生活终究是在模仿艺术」。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

定价翻倍

更强，但也更贵

说完实力，必须说钱。

GPT-5.5的API定价，每百万输入Token 5美元，每百万输出Token 30美元。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

GPT-5.4是多少？2.50美元和15美元。

整整翻了一倍。

GPT-5.5 Pro更夸张，输入30美元，输出180美元。

对比一下Opus 4.7，输入5美元，输出25美元。GPT-5.5的输入价格和Opus 4.7持平，但输出贵了20%。

OpenAI给出的解释是token效率提升。同样的Codex任务，GPT-5.5用的token比GPT-5.4明显更少。

更强，而且更高效。

但算一笔账就知道，如果一个团队每月在GPT-5.4上花10万美元，切换到GPT-5.5后即使token用量减少30%，月账单依然会涨到14万美元左右。

换句话说，GPT-5.5是一个「你为更强的智能付更多的钱」的溢价产品。相比之下，GPT-5.4大概率会继续作为性价比之选存在。

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

OpenClaw已接入最强GPT-5.5

8天，一个时代的缩影

回头看这8天发生了什么。

4月16日，Anthropic用Opus 4.7在SWE-Bench Pro上发起突袭，从GPT-5.4手中夺走编程王座。

4月24日，GPT-5.5正式发布。Terminal-Bench碾压，定价翻倍，科研炸裂。

2026年的AI竞赛，已经不是「谁的模型更强」这一个维度的较量了。

在GPT-5.5的叙事里，OpenAI反复强调的是「探索全新的电脑办公方式」，一个能自主规划任务、调用多种工具、在浏览器和本地软件之间来回切换的通用Agent。

跑分是前菜，Agent化办公才是主战场。谁先定义「AI怎么替人干活」，谁就定义下一代电脑使用界面。

8天一个来回。这个节奏，只会更快。

参考资料：

https://openai.com/index/introducing-gpt-5-5/

https://x.com/OpenAI/status/2047376561205325845?s=20

文章来自于微信公众号 "新智元"，作者 "新智元"

AI新闻 GPT-5.5 OpenAI chatGPT

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0