o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

10983点击 2025-02-02 13:34

在科技界，一天的时间足以改写历史。

DeepSeek R1用「降维打击」重构了AI界，OpenAI不甘示弱放出了o3-mini，再次加冕为王。

o3-mini的进步可不是一点半点，在数学代码等基准测试中，均拿下了最高的成绩。

甚至，在「物理模拟」高难度挑战战场上，o3-mini直接粉碎R1，展现出惊人的实力。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

能够清晰地看出，o3-mini具备更强的物理推理能力，DeepSeek表现出明显的「反重力」现象。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

prompt：write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

在另一个演示中，更加复杂，不仅要考虑小球与墙壁的碰撞，还要考虑不同小球之间的相互碰撞。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

prompt：Simulate multiple small balls bouncing inside a spinning rectangle. The balls should collide with each other and the walls

从单球反弹到多球碰撞，从简单物理到复杂系统，OpenAI的仿佛在诉说着「王者，从未离场」。

教授Derya Unutmaz对o3 mini表现的进步非常激动：

o3-mini只需一次提示就能准确生成符合物理定律的代码！与此同时，DeepSeek-R1对此却显得很吃力。

这场AI竞赛正在全速加速，后来居上者，拭目以待。目前，OpenAI明显处于领先地位！」

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

此外，在「人类最后一场考试」的纯文本测试集上，新模型03-mini（medium/high）在准确率上超越了DeepSeek-R1。

奥特曼甚至自信的表示：「不久，人类就需要另一场考试了……」

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

然而，这只是OpenAI新模型的冰山一角。

奥特曼剧透o3-mini接下来还有更大的惊喜！

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

o3-mini还有好东西，很快就会给你，我想我们把最好的留到了最后！

编码吊打o1，最好的编程模型

在代码补全基准Codeforces排名中，相对o1系列模型，o3-mini进步明显。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

而独立于LLM提供商的性能基准和定价排行，Artificial Analysis表示：「o3-mini是从o1-mini向前迈出的一大步。」

同时，公布了o3 mini的初步结果，完整的基准测试结果稍后推出：

人工分析质量指数为89，与DeepSeek R1匹配，略低于o1
更便宜 - 每百万个token1.1美元/4.4美元的输入/输出定价，低于许多 DeepSeek R1 API（高于DeepSeek的甲方R1 API定价）
快速-与o1-mini的速度相似，为170个token/秒，尽管这意味着2000个代币的「思考」时间仍然需要 ~12 秒

其中人工分析质量指数（Artifical Analyssi Quality Index）包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多个测试基准。

全网实测

那么，o3-mini真实实力究竟如何？

如下来自全网实测的最全演示，即可揭晓谜底。

o3-mini彻底掌握了arXiv

OpenAI研究科学家Sebastien Bubeck表示，o3-mini是一个了不起的模型。

在理解和解析arXiv论文方面，o3-mini达到了全球独一无二的水平，成为真正的科研伙伴！

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

下面是一个看似简单但会让所有其他模型都感到困惑的问题，而o3-mini却能给出极其有用的答案。

它完全说到了点子上：与自收缩曲线的联系、依赖于维度的界限，甚至还引用了相关论文。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

下面这个例子是Sebastien在不同主题的另一个查询。

有趣的是，o3-mini-high给出的参考文献「Bubeck and Ganguly」并不完全正确，但确实非常相关。

总的来说，它给出的参考文献都是「模糊准确的」，可能会混淆作者/期刊/标题，但令人惊讶的是这些引用仍然很有用。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

他又表示，这些都是相当冷僻的问题，能够回答这两个问题的论文少于100篇（实际上更接近约10篇）。

能有一个模型可以回答只有O（10）数量级的人类知道答案的问题，这确实令人惊叹。

此外，Sebastien又演示了一个用o3-mini构建「我的世界」的演示。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

AI物理新巅峰，轻松击败R1

Hyperbolic联创Yuchen Jin测试后惊叹道，o3-mini可能是目前最强的物理推理LLM！

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

o3-mini竟然成功生成了四维超立方体（Tesseract）内反弹小球的Python代码，展现出惊人的物理推理和数学建模能力。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

Prompt: Write a Python script of a ball bouncing inside a tesseract

再来看R1的表现，显然不如o3-mini。‍

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

再来看o3-mini-high，demo中竟然翻车不如o3-mini？

Yuchen Jin多次尝试后发现，o3-mini-high在这个任务上表现糟糕，甚至比一次性生成的o3-mini版本还差！

其中一个版本居然只生成了小球，没有四维空间结构……

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

另一个很好展现o3-mini理解物理世界的demo。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

「被o3-mini震撼到了（不仅仅是因为它的编程能力），更因为它那闪电般的速度。

它仅用19秒就一次性生成了这四个演示。我从未见过类似的东西。一个新的AI时代已经到来」。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

沃顿商学院教授Ethan Mollick让o3-mini-high首次挑战生成动态海洋风暴Shader，没想到竟然成功了！

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

18秒，克隆一个应用

另一位OpenAI研究员Aidan Clark表示：「o3-mini在智能和速度的组合方面令人难以置信，我不知道该说什么，你只能自己去试试看了。」

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

在下面demo中，Clark要求o3-mini用单个Python文件写一个Twitter克隆应用。

整个过程只用了8秒。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

一句话，生成游戏

更令人惊叹的是，开发者Alex Finn仅用1个提示，o3-mini便能生成完整的太空游戏。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

用一句话制作的「贪吃蛇」游戏。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

prompt：create a snake game, where snakes compete with each other

另一个动漫小人射击游戏。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

还有网友通过o3-mini-high制作的太阳系3D模拟。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

prompt：build me a massive amazing epic a floating city

OpenAI王者重归

OpenAI的策略，已经重新获得了用户的「芳心」。

开发者Mckay Wrigley已经用o3-mini模型代替AI智能体和工作流中的o1模型。一切都正常工作，甚至有一些表现的更好，但是便宜了9倍，速度快了4倍。

他认为：「OpenAI对新模型的宣传明显不足——这绝对令人难以置信。o3& o3 Pro会很疯狂。」

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

03-mini和o1系列定价比较

根据Information报道，OpenAI2024年快速增长：

2024年，ChatGPT付费订阅用户已达1550万。
企业的模型采用率增长了7倍。
新推出的200美元/月Pro订阅计划，年收入已达3亿美元。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

网友Prakash，则在X上列出了OpenAI的各部分收入：

ChatGPT Plus

月经常性收入（MRR）：3.33亿美元
订阅价格：20美元/月
月活用户（MAU）：1665万

ChatGPT Pro

月经常性收入（MRR）：2500万美元
订阅价格：200美元/月
月活用户（MAU）：12.5万

ChatGPT总收入

月经常性收入（MRR）：3.58亿美元
年经常性收入（ARR）：43亿美元

API收入

每分钟处理Token数量：14亿
每年处理Token数量：735万亿
每百万Token价格（以o3 mini输入价格计算）：1.1美元
年经常性收入（ARR）：8.09亿美元

总收入

年经常性收入（ARR）：51亿美元

他表示：「有趣的是，API收入远小于ChatGPT订阅收入，真正推动增长的还是消费级应用。」

网友Andrew Gao表示Anthropic正在吃掉OpenAI的市场份额。

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

OpenAI在企业客户中的份额从2023年的50%下降到了2024年的34%，具体如下：

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

OpenAI早已与美国政府合作，确保AI领域的领先地位。

在参加特朗普的就职典礼并宣布「星际之门」后，OpenAI首席执行官奥特曼，连续第二周来到华盛顿特区。

就在近日，在国会山附近的一次非正式演示中，奥特曼向美国政府领导人、政策专家和记者展示了即将推出的技术。

目的不仅是展示美国如何最大化人工智能带来的经济利益，还希望让华盛顿的领导者提前了解即将到来的技术能力，以减少他们在未来措手不及的可能性。

谈到能够自主完成现实世界任务的新型自主智能技术时，奥特曼表示：[我的直觉是……对美国经济贡献，这些技术将占个位数百分比。」

但与政府合作，并不是OpenAI唯一的选择。

外媒报道称，OpenAI为了实现增长，寄希望于更高级模型驱动的ChatGPT的高价订阅。

参考资料：

https://x.com/EyeingAI/status/1885652167257940174

https://x.com/jam3scampbell/status/1885752009766137897

https://x.com/bindureddy/status/1885517599083307433

文章来自微信公众号 “ 新智元 ”

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

关键词: o3-mini , DeepSeek R1 , OpenAI , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0