GPT-5的实测众说纷纭,那GPT-5最强的Pro版本表现如何?实测后,我们认为GPT-5 Pro有可能确实就是当下的最强模型。
GPT-5终于来了,全世界的眼睛都盯着它。
但是目前的评价嘛,却是毁誉参半。我们也赶紧上手深度实测了一波。
发现GPT-5这家伙,表现还真有点「飘忽不定」,猜测可能和那个叫「路由」功能有关。
但是,一旦切换到GPT-5 Pro模式,强制使用最强能力时。天呐!感觉是真的有点强。
废话不多说。我们直接上案例,看看它到底有多牛。以下所有实测Demo均由GPT-5 Pro出品。
1. 首先就是喜闻乐见的「前端能力」展示
我们让GPT-5 Pro制作了一个黑客帝国的风格的可调参数城市,附带一个控制面板。
不得不说,编程能力确实提升巨大。
在完整视频中,你能看到GPT-5的参数面板非常丰富,可以调节很多细节,这个直观上就比我们以前测试的所有例子都要好。
2. 看图求解数独
只需要1分钟10s中,完美解决数独问题。
3. 比大小变体
比较9.9和9.11已经有了变体形式,通过求解方程来进一步测试模型的推理和计算能力。
4. 时钟难题
GPT-5 Pro一开始也是认错的,但是只要提示词强调「短的是时针,长的是分针」,然后Bingo!
6个钟表5个完全正确,只有黄色时钟识别错误。
不过,红色钟表由于时针和分针里的太近,被认为是12点(实际11点55,非常接近)
作为对比,Gemini 2.5 Pro的识别错误率就非常的高,几乎全错,多次询问正确率依然不高。
5. IMO数学问题
IMO的问题虽然都是OpenAI和谷歌都解出来了1-5题,但是他们是用的都是特调参赛用模型。
使用GPT-5 Pro求解第一道题目,在近16分钟的思考后,也得出了正确答案。
并且给出了非常详细的答案。
6. GeoGuessr看图猜地址挑战
将GeoGuessr上的挑战,交给GPT-5 Pro。
GPT-5 Pro根据砖墙颜色、房屋风格、交通标志、植被等全方位的分析,2min判断这是南非。
可以进一步要求深入分析,具体经纬度在哪里。
这是最终的结果,确实就是南非。
网友们也都玩出了花!
有人在实测后认为GPT-5 Pro确实是一个顶级模型,是最优秀的。
OpenAI在Pro版本上取得了巨大的进步!
Peter进行了12次测试。
结论是:没有任何其他模型能够匹敌,无论是OpenAI、Google、xAI还是Anthropic的模型。
所有这些测试都只用了 1-3 次尝试,输出结果确实非常出色。
沃顿商学院CS教授EthanMollick惊叹道,自己全程没有输出一行代码,就让GPT-5做出一个建筑生成器。
只需要重复一句话——改进它,就实现了如下的效果。
一个提示,可以单次生成「我的世界」克隆版。
类似奥特曼制作的鼓点音乐,网友也尝试了GPT-5创建旋律和可视化效果。
GPT-5氛围编程,直出一个社交模拟器。
在SVG图生成方面,GPT-5可以说达到了全新高度。
OpenAI科学家SebastienBubeck表示,「在OpenAI,团队已前后攻克了预训练和推理两大技术难题。
现在正在全力探索一套,能最大限度发挥两者协同效应的新技术体系。GPT-5仅仅是这个方向的第一步」。
GPT-5还能看图精准定位,网友将童年一张照片扔给ChatGPT,没想到它直接定位到一英里范围内。
硅谷爆红经济学家TylerCowen认为,GPT-5在专业领域表现远超o3,并称这是自己用过最出色的学习工具。
同样,在编程方面,OpenAI研究员SuvanshSanjeev表示,「GPT-5重新定义并拓展了不同规模模型的成本和智能边界」。
可以说。正如METR最新报告所指出的,AI的指数级增长仍未放缓。
GPT-5完成任务时长延伸了52%
各路大神都进行了实测,但是要想自己玩得好,还要看官方指南。
OpenAI自己出了官方指导手册「GPT-5 prompting guide」。
指南基于官方团队与早期测试者(如Cursor)的实践经验,总结了在不同场景下提升GPT-5输出质量的提示策略,涵盖智能体主动性调控、上下文收集优化、Responses API 的高效利用,以及在前端/全栈开发中的最佳实践。
OpenAI表示他们从规划到执行,尽可能的最大化编码性能。
比如前端开发,GPT-5 在训练中具备了出色的基准审美品味,同时拥有严谨的实现能力。
对于新应用,OpenAI建议使用以下框架和包,以最大程度地发挥该模型在前端方面的能力:
并且网友们也整了一套GPT-5的提示词范例。比如
1.深度推理与问题解决(Deep Reasoning & Problem-Solving)
先把问题拆解成清晰步骤,再输出答案,减少推理错误。
2.先批评再定稿模式(Critique Before Final Mode)
先完成初稿,再让GPT-5批评并修改,提升质量。
3.角色+目标+约束(Role + Objective + Constraints)
设定身份、目标和严格约束,让输出更贴合需求。
4.逐步加深(Progressive Deepening)
先给高层概述,再逐步深入细节,避免一次性信息过载。
被网友催的狠了,现在OpenAI已经把GPT-5之前的所有模型都放了出来。
快去看看你的ChatGPT里是否已经有了。
方法是进入设置并打开「显示传统模型」,就能在下拉菜单中看到之前的模型了。
同时,你也可以选择将颜色设置尊贵的「黑色」。
参考资料:
https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide#collaborative-coding-in-production-cursors-gpt-5-prompt-tuning
文章来自于微信公众号“新智元”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0