o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实
8946点击    2025-04-17 14:49

OpenAI新模型全网实测惊艳来袭!o3缩放图像被玩疯,o4-mini速解Project Euler,碾压人类。AI初创CEO说,OpenAI凭此一役已经重回榜首,甚至有经济学家直言AGI已经来临!


昨夜o3的发布,让人不尽感慨:打了这么久嘴炮的OpenAI,这回终于实实在在拿出了点真东西。


史上首次,模型能够用图像思考,视觉推理达到巅峰。


许多网友实测后,大感惊艳。


o3能不断缩放图像,完成解题、识图,编程任务实测惊人。


还有一大特点,就是速度快!只用2分55秒,它就解决了一道Project Euler问题,速度秒杀任何人类。


甚至可以认为,o3是一个快速版的Deep Search,但不需要20分钟,只需要2分钟。


AI初创CEO Dan Shipper表示,o3意味着一件大事——OpenAI已经重回榜首!


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


经济学家Tyler Cowen甚至直接发文,深感就在今天,AGI已经降临!


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


缩放图像,被网友玩疯


给出一张图,o3就可以反复缩放和裁剪图像,多小的图,经过这一番操作后都能马上被识别出来。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


比如琴架上曲谱里是什么歌,它通过放大图片就能发现:这是「月亮河」。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


发给o3一张婴儿车的照片,询问品牌和型号后,它会自动放大靠背上的小标志,经过14次搜索后,找到了正确答案。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


还有人给o3发了一张图片,问它这辆车是哪个品牌和型号。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3一番丝滑操作,多次裁剪图片,不停用Python写代码,然后开始在网上狂搜,仅仅4分钟后,它就找到了正确答案,堪称惊人!


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


无论是确认饭店名字,还是做出一堆玩具中纸上的谜题,它都游刃有余。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


有人让4o来分析y轴上的数字,确认它们是否符合大海捞针测试中的S型分布。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


果然,它不仅做到了,甚至还根据这些数字做出了一张图表。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


综合解题能力


o3的综合解题能力,让人倍感惊艳。


Layers Itd的联创兼开发主管称,o3实在令他印象太深刻了,因为下图中这个问题,第一次被一个模型一次性解决了!


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


而o4-mini-high则是和其他模型一样,在几次尝试后才成功解决。


问题看似很简单:红色柱子有多高?


这道题的精髓,无非就是算出物体实际高度和投在地上影子的比例,另外要注意红柱子落在竖直墙上的影长,跟对应部分的实际高度一致。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


如此简单的问题,却让很多大模型第一次都折戟了,只有o3顺利做出。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


而生物医学教授Derya Unutamz表示,自己被全新的o3模型彻底震撼了!


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


因为已经提前获得了访问权限,他已经好几天对o3爱不释手。


在他看来,o3就像o1-preview和o1-pro的里程碑,但在各个方面都更聪明、更可靠,甚至可以说,o3的智能水平已经达到或接近天才级别。


它从不产生幻觉,智能体风格工具能轻松处理多步骤任务,还具备非凡的推理能力和精确性,能生成极具洞察力的科学假设。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


当Unutamz教授向o3提出极有挑战性的临床或医学问题时,它的回答仿佛来自顶级的专科医生,精确、全面、基于证据、充满智慧。


他表示,o3的诞生,对于科学、医学及很多领域,都是一个彻底的颠覆者。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


而最喜欢给新模型测试「水獭难题」的沃顿商学院教授Ethan Mollick,则直接让o3制作了一部关于水獭和飞机的电影。


接到这个指令后,o3虽然没有电影功能,立即自行决定绘制每一帧,然后拼接成gif。这个任务,它一次性顺利完成。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


AGI已经降临?


OpenAI的工程师、普林斯顿校友John Hallman,在o3完成训练后提早有了试用新模型的机会,他难掩内心冲动:


o3就是AGI。


虽然还不完美,但在99%的智力评估中,o3模型能击败我、你乃至99%的人类。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


经济学家Tyler Cowen,直接发文宣扬:昨天OpenAI发布o3之日,就是AGI降临之日。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


他坚信o3就是AGI,但释放AGI潜力,尚需时日:


我认为这是AGI,真的。


试着问它多个问题,然后问问自己:我原本期望AGI有多聪明?


正如我过去所争论的,无论你如何定义AGI,它本身并不是社会事件。我们仍然需要很长时间才能正确地使用它。但股市不为所动,因为AI快速发展的事实早已被市场消化。


初创媒体联合创始人/首席执行官Dan Shipper,称ChatGPT是「带WiFi的梭罗」,对本次o3的发布更是赞不绝口!


他玩了o3大约一星期,已经是他最喜欢的模型了。


它速度快,有主动性,极其聪明,而且氛围感很强。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


Dan Shipper表示,可以把o3看作是Deep Search-lite。


它仿佛可以对所有事物进行深度研究,但并不需要花20分钟,而是只要30秒到5分钟。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


而Dan Shipper最喜欢的o3用例之一,是制作迷你课程。它可以设计一门课,每天用「提醒」工具给你上一堂新课。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


最令人惊讶的体验


在o3正式发布之前,Dan Shipper已提前测评了好几天。


他给予了o3最高的评价:


在短短一周内,它已经成为我处理大多数任务时的首选模型。


我仍然用GPT 4.5来写作,用3.7 Sonnet来编程Windurf,但除此之外,我几乎无时无刻不在使用o3


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


这里是o3的简要总结:


  • 它具备自主能力:你只需给它一个任务,30秒或3分钟后回来,它就能给出详细的回答。它可以利用搜索、代码解释器、提醒和记忆等工具,编写复杂的功能等等。
  • 它很快,非常流畅:速度是智能的一部分。在测试中,o3在这一维度上始终比Anthropic和Google的前沿推理模型(分别是Claude 3.7 Sonnet和Gemini 2.5 Pro)要快。使用起来非常顺畅。
  • 它非常聪明:虽然现在没有基准数据,但给它喂了一些专家级的数独题目,它第一次就解出来了。Gemini 2.5 Pro和3.7 Sonnet都没能解决。
  • 它突破了ChatGPT的一些旧局限:因为它具备自主代理能力,旧规则不再适用。它让ChatGPT变得更加实用。
  • 在社交上,它不那么尴尬,也不像3.7 Sonnet那样过于刻意:o3会专注于解决问题。似乎比其他o系列模型更有「人情味」,与它交流更有趣;尽管它的写作能力不如GPT 4.5(安息)或Sonnet 3.5,但仍然非常不错。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


对OpenAI而言,这是一个极具价值的战略定位,将进一步巩固其作为AI时代首选聊天平台的领先地位。


o3的发布,也印证了企业动荡的历史经验。


在Sam Altman被解雇后的一年里,OpenAI新产品发布缓慢,分析师们甚至预言其将走向衰落。


而随着o3的推出,以及此前GPT-4.5的发布和深厚的研究积累,OpenAI正以势不可挡的姿态强势回归。


胜过人类的表现


前DeepMind工程师Scott Swingle称,o4-mini-high只用了2分55秒就解决了一道最新的Project Euler问题。


这道题并不简单,只有15个人能在30分钟内解决它。


而且这还是一道几天前才出来的新题,不可能出现在o4的训练集中,这表明o4-mini-high依靠「思考」解决了它。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o4-mini-high通过归纳法计算数学表达式,它先定义一个公式并用快速幂运算提取特定系数。接着通过累加和模运算逐步计算出结果,并用Python代码验证了答案。


解题速度比之前人类的最好成绩快了一倍。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


不过,这还不是它的极限,网友Dan Loewenherz用它又解了一遍这道题,结果这次更夸张,只用了不到一分钟就搞定。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


随着o4-mini不断的更新升级,它解答类似问题的速度也会越来越快,与人类选手对比速度快慢也就没太大意义了。


换句话说,至少在编程数学领域,o4-mini-high可能已经达到了AGI。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


网友Flavio Adamo更是认为称o3和o4-mini-high为最佳「氛围」编程模型。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


Adamo最先在网上发起了针对模型的旋转多边形和小球挑战。


这一挑战既能考察模型的编程能力,也能检验模型对物理法则的了解,迅速成为测试新模型的基准测试。


o3和o4-mini-high在这一挑战上的表现完美,甚至不相上下。


无论是多边形的旋转还是小球的运动,都与现实接近。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


它们的表现已经超越了被认为是现在最强的模型Gemini 2.5 Pro与DeepSeek R1。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


o3正在绝对主导SEAL排行榜,排名第一的项目有:人类终极测试(Humanity's Last Exam、多挑战(MutiChallenge)、掩码(Mask)以及ENIGMA(谜题解答)。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


有人质疑:o3并没有那么厉害


不过,虽然外界多把o3和o4-mini-high吹上了天,甚至有人喊出这两个模型已经「解决了」数学问题。


但OpenAI的自家研究员Noam Brown却表现得比较谦虚,他说o3和o4-mini在撰写证明方面仍然表现不佳。


与获得国际数学奥赛金牌的水平「相去甚远」。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


更有人实测后,发现o3还是不知道「strawberry」里到底有几个字母「r」。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


Gary Marcus一贯不看好目前的AI范式,直接预测:o3只是风光一时,在现实的日常推理中,o3的可靠性不如数学等封闭领域。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


Transluce研究实验室测试了o3的预发布版本,也发现了它的重大缺陷——经常捏造事实!


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


它不仅经常捏造从未采取过的行动,甚至还在被质疑时会精心辩解。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


它经常捏造从未采取过的行动,然后在被质疑时精心为这些行动辩解。


甚至在打假过程中,他们发现o1和o3-mini也会经常进行虚假陈述。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


尽管o3没有访问编码工具,但它却声称在自己的笔记本电脑上运行了代码,然后将数字复制到了答案中。这种说法,出现在了71份记录中!


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


甚至,它还会为自己声称运行的代码编造详细的理由,在352个实例可以证明这一点。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实

用户要求o3提供一个随机素数的示例记录


当被质疑时,o3嘴硬辩称,自己有压倒性的统计证据,证明这个数是素数。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


它拒不承认自己从未运行过代码,而是声称错误是源于输入数字不正确。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


总之,o3似乎很习惯满嘴跑火车。


而且Transluce发现,这种行为并不局限于o3。总体来说,o系列模型的幻觉频率要高于GPT系列模型。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实


Transluce的研究者猜测,或许是基于结果的RL最大化产生正确答案的机会,会激励模型去盲目猜测。


参考资料:

https://marginalrevolution.com/marginalrevolution/2025/04/o3-and-agi-is-april-16th-agi-day.html

https://x.com/danshipper/status/1912552321650672078

https://x.com/goodside/status/1912604138518851990

https://x.com/flavioAd/status/1912570772775698879


文章来自于“新智元”,作者“编辑部 ZJN”。


o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实

关键词: AI , o3 , o3实测 , openai
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md