GPT-5要来了,来势汹汹!泄露的基准测试+Minecraft实测,直接让全网惊掉下巴:代号Zenith的GPT-5-pro在游戏中如行云流水,被称为「魔法级AI」。更有爆料称它将于7月31日发布,吊打Grok 4 Heavy!OpenAI这是又要掀桌了?
一大早,关于GPT-5的消息又来了。
这些泄露的GPT-5基准测试,很可能是真实的。
甚至还有一个炸裂消息:GPT-5将于7月31日发布。
为此,现在所有GPT-5模型,已正式退出WebDev竞技场。
不过还有另外的说法,来自Menlo Ventures投资人Deedy,以及The Verge、The Information等外媒,据说GPT-5会在8月亮相。
虽然GPT-5还没来,但有关它的实测已经全网满天飞了。
就在刚刚,又有一位放出了GPT-5复刻Minecraft游戏的实测。准确地说,是内部代号zenith的GPT-5-pro。
这位网友评价道:「令人印象深刻,简直就是魔法!OpenAI确实做出了一些令人难以置信的东西。」
在这个视频中,GPT-5行云流水地一次性完成了游戏任务,表现实在惊艳。
把网友们的期待值拉得这么高,GPT-5正式发布的时候必然得超级炸裂了,否则都不知道该怎么收场。
还有一个重磅爆料,来自知名爆料人Jimmy Apple。
根据他的说法,很多内部评估人员对GPT-5的评价是——比Grok 4 Heavy还要强。
现在,GPT-5的气息是越来越近了。
甚至有人发现,当自己在app中选择o3时,竟意外测试到了某个版本的GPT-5。
不小心测到GPT-5的人,越来越多。
关于它本周上线的消息,也得到了越来越多人的证实。
而The Verge的说法稍有不同,根据他们的情报,GPT-5将于8月初发布,包括mini和nano版本。
此前曾有开发者发现,GPT-5在内部被命名为「推理alpha版」。
同时,一个代号「o3-alpha」的模型,才上线了12小时就迅速下架,许多人公认:这就是GPT-5的早期壳。
根据OpenAI惯例,从测试到发布间隔最短仅4天,所以,GPT-5真的已经相当近了。
就在昨天,大家已经发现了GPT-5可以在LMArena上使用。同时被发现的还有Zenith模型。
下面这些实例,也已经被全网疯转。
生成来自遥远未来的星舰控制面板。
创建一个流媒体网站。
在机器人行走方面完美呈现SVG动画。
史上最好的菠萝防御游戏。
融合o系列和GPT系列
毫无疑问,现在GPT-5已经是全球最受期待的模型。
很多人相信,GPT-5将是一个意义非凡的里程碑,将吸引数百万用户加入AI生态系统。
接下来,我们会梳理一番过去这段时间,GPT-5被提及的种种蛛丝马迹。
在关于OpenAI智能体的一次直播中,GPT-5就曾被提及。
当时的关键信息是:这个令人惊叹的前沿模型,将首次统一两个系列的模型,集中了o系列在推理方面的突破,以及GPT系列在多模态方面的突破。
因为ChatGPT有各种型号的模型,每个模型都有自己独特的功能和突出的特点,如果GPT-5真的是每个单一模型最佳部分的集合,很显然用户体验将彻底改变。
比如用过o3的人就知道,从GPT-4o到o3的飞跃有多么疯狂。
这一点,早在今年2月,就得到了OpenAI CPO Kevin Weil的证实。
网友问道:你们会制作模型路由器,还是它们会以系统的方式更加统一?Weil表示,会更统一
另外还有一个疑似OpenAI内部员工的爆料。他表示,研究者们的确尝试了路由方法,不过产生了很多幻觉。
所以,他们在测试一个能规划、推理、可以像扩展一样运用智能体的模型。
然后就是外媒The Information的一些爆料了。
总结来说就是,GPT-5编码极强。
在自然科学领域,推理更深入;
在浏览器里自动完成复杂任务;
写作更流畅,逻辑更在线;
更重要的是:在编码上有炸裂提升!
根据一位体验者的说法,GPT-5不仅更善于解决学术和编程竞赛问题上,甚至在处理现实世界工程师面对的实际编程任务时,表现都更加惊艳了。
比如那种包含大量屎山遗留代码的庞杂代码库,它能都能进行修改,完全没在怕的。
正是这种处理复杂场景的细致能力,让OpenAI的模型过去始终落后于Anthropic。毕竟在开发者群体中,大家都公认,Claude才是真正的编程王者。
一位体验者亲测后表示,GPT-5在编程上,甚至直接胜过了Anthropic的Claude Sonnet 4!
另外的说法就是,GPT-5不是一个统一的模型,而是一个路由器机制。
它会根据问题的类型,把你的提问发送给一个擅长闲聊GPT大模型,或是一个擅长逻辑和推理的o系列模型。
最终我们所看到的GPT-5的表现,就是这俩模型组合拳的效果。
甚至还有OpenAI高管私下这样预言——
我们在不换架构的前提下,有信心做到GPT-8。
也就是说,OpenAI并没有打算卷新架构,而是靠更聪明的调度、更强的推理、更多的后训练数据,一步一步把现有技术用到极致。
同时,奥特曼在最近的采访中关于「GPT-5让自己觉得毫无用处」的说法,让更多人期待值拉满了。
也有人说,GPT-5很可能是目前AI领域正在发生的最危险的事情之一。
比如奥特曼就在这次采访中提到,很多人整天都在和AI聊天,甚至把它当作自己的男友或女友。
还有一些孩子们,在成长过程中完全靠着滚动屏幕的方式获取多巴胺。这几件事都很危险。
当主持人问出:如何防止AI产生与社交媒体相同的负面影响?奥特曼诚实地承认道:我很害怕这件事,我没有答案。
令人担忧的是,就在前几天,一位OpenAI的投资人承认,自己因为整天使用ChatGPT,已经出现了一些不正常的状况。
也就是说,即使是有钱人,也会因为跟AI聊天被诱发精神病。
奥特曼甚至表示,自己对给地球上的每个人发放免费运行的GPT-5十分感兴趣。
当这些AI产品和服务以1/100成本被提供时,很显然,某些经济体会迅速转型和瓦解。
但是,不管会给世界造成怎样的狂潮,GPT-5要上线的架势,如今已经是无法阻挡了。
参考资料:
https://x.com/chetaslua/status/1949905375546708242
https://www.youtube.com/watch?v=0jDsWemXi3U
文章来自于“新智元”,作者“Aeneas”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales