凌晨 1 点,OpenAI 发布了 GPT-5-Codex。
从名字也能看出来,这是针对智能体编程任务进行了专门优化的 GPT-5。OpenAI 博客介绍说,GPT-5-Codex 的训练重点放在真实的软件工程任务上。它既能在短时间的交互式会话中快速响应,也能独立完成冗长复杂的任务。它的代码审查(code review)能力可以在代码上线前发现关键漏洞。
GPT-5-Codex 已经在 Codex 的所有使用场景中上线,包括 Codex CLI、IDE 扩展、网页端、移动设备以及 GitHub 中的代码审查。它是云端任务和代码审查的默认模型,开发者也可以通过 Codex CLI 或 IDE 插件,在本地任务中选择使用它。顺带一提:Codex 已包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 订阅中。
发布两个半小时后,OpenAI CEO 山姆・奥特曼激动地表示 GPT-5-Codex 的流量已经占到了 Codex 流量的 40% 左右,并且他预计该模型在今天之内就将成为 Codex 的流量主体。
OpenAI 表示:「自从 4 月推出 Codex CLI、5 月推出 Codex Web 以来,Codex 已逐步演变成更高效的编程助手。两周前,我们把 Codex 整合成一个统一的产品体验,并与 ChatGPT 账号打通。这样,你可以无缝切换本地环境和云端任务,不会丢失上下文。」
该模型一发布就收获了诸多好评,甚至有人表示这是「自切片面包发明以来最好的东西」。
OpenAI 已经以附录形式将 GPT-5-Codex 加入了 GPT-5 系统卡。
地址:https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/
下面我们就来更详细地了解一下 GPT‑5-Codex。
GPT-5-Codex 重点优化了在真实工程场景中的自主式(agentic)软件工程能力。
它接受过完整项目构建、功能开发、测试编写、调试、大规模重构和代码审查等复杂任务的训练。相比 GPT-5,它更易于控制,遵循 AGENTS.md 的指令更好,代码质量更高。OpenAI 表示:「你只需要告诉它想要什么,而不用写冗长的风格说明。」
其在 SWE-bench Verified(软件工程)和 Code refactoring tasks(代码重构)两个基准上的准确度表现都优于 GPT-5 (high)。
值得一提的是,OpenAI 在 SWE-bench Verified 上的成绩这一次终于使用了该数据集中所有的共 500 个任务,而不是像之前那样只使用了 477 个任务(曾因此备受批评),OpenAI 声称之前只使用 477 个任务的原因是「有部分任务无法在基础设施上运行,而现在这一问题已解决。」
至于另一个代码重构基准 Code refactoring tasks 则包含许多来自大型成熟软件库的重构任务,覆盖 Python、Go、OCaml 等语言。比如 Gitea 的一个 PR,就修改了 232 个文件、3541 行代码,为应用逻辑引入 ctx 变量。
GPT-5-Codex 不仅性能更优,也能根据任务复杂度动态调整思考时间。
它结合了两种关键能力:一是与开发者配合的交互式会话,二是对长任务的持久自主执行。
在处理小型请求或对话时,GPT-5-Codex 反应更快;而在处理复杂任务(如大型重构)时,它能持续工作更久。OpenAI 表示:「在测试中,我们看到 GPT-5-Codex 能独立运行超过 7 小时,不断迭代实现、修复测试,最终交付可用代码。」
OpenAI 还分享了他们的 内部使用数据:
GPT-5-Codex 也专门训练了代码审查能力,可以主动发现关键漏洞。它会遍历代码库,分析依赖,并运行代码和测试来验证正确性。OpenAI 用热门开源项目的最新提交(commit)做了评估,并让经验丰富的工程师进行了验证,结果发现:GPT-5-Codex 的审查意见更少出现错误或无关内容,更能把注意力集中在关键问题上。
在前端任务上,GPT-5-Codex 表现可靠。它能生成美观的桌面应用,也在移动网站的偏好测试中显著提升。云端环境下,它还能读取你上传的图片或截图,检查自己的进度,并把结果截图返回。
GPT-5-Codex 针对 Codex CLI、IDE 插件、云环境和 GitHub 进行了深度优化,同时也支持多种工具调用。不过 OpenAI 也指出:「与通用的 GPT-5 不同,我们建议只在 Codex 或类似场景下使用 GPT-5-Codex。」
除了发布 GPT-5-Codex,OpenAI 今天还宣布了 Codex 的一些升级,包含全新设计的 Codex CLI 以及新的 Codex IDE 插件。
Codex CLI 是开源的。过去几个月里,OpenAI 基于社区反馈重新设计了 CLI,让它更适合「自主编程」的工作流,使模型能成为更强大、更可靠的搭档。
现在用户可以在 CLI 中直接添加图片,例如截图、线框图和设计图。这样可以建立共享上下文,让设计决策更清晰,并更容易得到符合预期的结果。
在处理复杂任务时,Codex 会用待办清单(to-do list)跟踪进度,还支持 web 搜索 和 MCP 等外部系统连接工具,整体的工具调用更准确。
终端界面也升级了:工具调用和代码差异现在格式更清晰,更容易阅读。
批准模式(approval mode)简化为三种:
CLI 还支持压缩对话状态,方便管理更长的会话。
Codex 也能在 IDE 中直接使用。这个插件支持 VS Code、Cursor 以及其他 VS Code 分支。它能把 Codex 带进编辑器,让用户能无缝预览本地改动,并直接用 Codex 修改代码。
OpenAI 介绍了在 IDE 中使用 Codex 的几个优势:
除了 CLI 和 IDE 插件,新的 GitHub 集成也让 Codex 的云端智能体更贴近开发者的日常工作流。用户无需离开编辑器或 GitHub,就能把任务交给 Codex。
OpenAI 表示,他们也一直在幕后不断提升云端性能,包括:
和 CLI、IDE 一样,云端 Codex 也支持使用图片。你可以上传前端设计规范或 UI bug 截图。Codex 会在浏览器里运行自己生成的内容,检查效果,并把截图附在任务或 GitHub PR 中。
Codex 现在也支持代码审查功能,可以发现关键缺陷。和静态分析工具不同,Codex 会:
这种审查力度,通常只有最仔细的人类工程师才能做到。Codex 正好补上这一缺口,帮助团队更早发现问题,减轻审查负担,让上线更放心。
在 GitHub 上启用后:
OpenAI 表示:「在 OpenAI 内部,Codex 已经审查了我们绝大多数 PR,每天能发现数百个问题,很多在人工审查开始之前就已经被拦下。这让团队能更快推进,同时保持信心。」
OpenAI 还介绍了在开发 Codex 时对代码与数据安全的保护措施,他们也部署了一些防范潜在滥用的手段。
OpenAI 也给出了建议:「我们始终建议开发者在上线前先检查 Codex 的工作结果。Codex 会在每个任务中提供引用、终端日志和测试结果,方便人工验证。」但 OpenAI 也强调:Codex 应作为附加审查者,而不是完全取代人工审查。
和 GPT-5 一样,OpenAI 依然将 GPT-5-Codex 在生物与化学领域的任务归类为 High 能力,并采取了相应的安全措施,以尽量减少潜在风险。
Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 订阅中。
目前用户还无法通过 API Key 使用 Codex CLI,但 OpenAI 也表示很快(soon)将通过 API 开放 GPT-5-Codex。
文章来自于“机器之心”,作者“Panda”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0