
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
“看得出 Anthropic 是真急了,都开始澄清了。”有网友在看到发文解释 8 月至 9 月初陆续出现 bug 的推文后表示。“产品质量这么差。我之前不明白为什么,现在明白了。”开发者 Tim McGuire 在帖子下表示。
9 月 16 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,这是一个经过微调的 GPT-5 变体,专门为其各种 AI 辅助编程工具而设计。该公司表示,新模型 GPT-5-Codex 的“思考”时间比之前的模型更加动态,完成一项编码任务所需的时间从几秒到七个小时不等。因此,它在代理编码基准测试中表现更佳。
昨天OpenAI正式发布了GPT-5-Codex,一个专门为Codex编码智能体研发的GPT-5版本。在看了全球网友实测效果后,基本结论就是可以告别Claude Code,放下Cursor,直接来拥抱Codex了!为了验证网友们的说法和GPT-5-Codex的真实能力,我们全面的测评了一下。
ChatGPT首份使用报告重磅上线!周月活飙至7亿,它已成为高学历白领的办公利器,编程却成为冷门。同时,Anthropic最新报告称,人们交给Claude完成任务暴涨至49%。
就在刚刚,Anthropic 发布了一报告,名字听上去有点学术腔——《人类经济指数》。 但别被这个名字骗了,它是一份非常具体、非常当下的观察笔记,可以说和我们息息相关。 原文链接:https://ww
刚刚,Claude 发布了一个重磅更新:可以直接生成Excel和PPT了! 现在,Claude可以直接创建和编辑各种文件: Excel表格、Word文档、PPT幻灯片、PDF文件,通通不在话下。
作为一名有着8年全栈开发经验的技术人员,我最近接手了一个具有挑战性的项目:为某中型服装电商平台开发一套智能商品推荐系统。该系统需要在2个月内完成,包含以下核心功能:
昨晚,腾讯发了他们的CodeBuddy Code,正式也加入命令行编程Agent战场。
Claude出现大危机,不是因为最近的某些骚操作,而是产品本身就出了问题。