好家伙,OpenAI 终于上新了!
9月13日凌晨,OpenAI 发布了最新系列模型 OpenAI o1,也就是吹了很久的“Strawberry 模型????”,OpenAI 的 o1 是一系列新的 AI 模型,专门为解决复杂问题而生。在多种平台上超越了所有之前的版本,甚至超过了许多人类,比如美国数学奥林匹克(AIME)、GPQA 评估和 Codeforces,目前已上线 o1-Preview、o1-mini。
首个版本是预览版,不仅推理、科学、编程和数学能力强了一大截;更重要的它不是直接回答,而是主动先思考后再回答。就相当于在生成回应之前,投入更多时间进行思考,再做答。
目前,ChatGPT Plus 和 Team 用户已经可以在 ChatGPT 网页版中访问 o1 模型,Enterprise 和 Edu 用户下周也能用上。没有会员的朋友们可以期待一下,OpenAI 官方会继续研发计划向所有 ChatGPT 免费用户提供 o1-mini 访问权限。
收到消息后,第一时间就打开 ChatGPT, 能直接使用 o1-Preview、o1-mini,还不错。
要知道一直以来,大模型都是文科生,在数学问题上都显得很智障。除非有非常非常清晰的提示,否则很难答对。
很多模型都栽在了最简单的比大小问题上,看官方介绍 o1 更新着重在推理(科学、数学、编码)上下了不少功夫,那咱们拭目以待。
先做道 AIME 2024年竞赛题
根据官方报告,在许多需要推理的测试中,o1 的表现已经达到了人类专家的水平,推理准确性超过博士生。
由于目前处于模型训练的早期阶段,常见功能基本都还没上,也没有多模态能力,无法上传图片,暂时就选择文字题目进行提问。
下面是一道 AIME 2024年竞赛的题目,一项专门为美国顶尖高中数学学生设立的挑战性考试,看看 o1 怎么答。
这么高难度的题,o1 思考了15秒,就解出来了。
对照答案,完全正确,分别是0.4h 和 204min。
要知道之前除了 Deepmind 的专业大模型有可能答对以外,其他的基本全军覆没。
o1 思考到生成
这道题有两种解法,感兴趣的朋友可参考详细解题步骤及视频:
https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_1
既然 o1 能做顶尖数学竞赛,也能做高考理科真题。以前每每做高考真题,答案往往只有孤零零的数字一个,想研究吧,没参考。
那我们不如让 o1 解高考真题,给广大学子提供下新的解题思路。
2024年高考物理真题(北京卷)真题及答案
o1-preview 用了26秒得出答案,而且整个过程非常详细,推理也很到位。
详细解答:
再来看一道化学题:
o1-preview 9秒就答出来了,而且有详细的分析思路,不太友好的时候发现是英文。在提问的时候,发现它的输出不太稳定,有时英文,有时中文,如果真用的话还是要谨慎参考。
o1-preview
反观 GPT-4o,回答则错误,对于这道化学题,一本正经地胡说八道。
GPT-4o
退休年龄计算
最近关于渐进式延迟法定退休年龄的办法引起大家广泛讨论,退休规则比较复杂。
咱用 o1 试试,算一下具体的退休时间。假设阿琴是1978年6月出生的,她将会在哪年哪月退休?
o1 在一分钟内计算出了,阿琴将在2030年6月,也就是51周岁10个月时正式退休。
对比退休年龄对照表,确实准确无误!
其他更有趣的例子放在了视频里:
三个其实 o1-preview 的可玩性还是很高的
很多人不喜欢理科是因为枯燥的概念,干巴巴的数字,做实验有难度,根本学也学不明白。现在的通过引导AI一步步把实验可视化,想要实现需要逻辑推理、数学计算和大量编码。在 o1 出来之前,很多大模型同时不具备这些能力。今天我们来尝试一下。
记得以前上学,生物学里生命的核心是蛋白质,它能进行多种组合,但想要每个蛋白质不太现实,这时候AI可就能发挥大作用,我们做一个蛋白质构建模拟器。(提示词放在文末,可自取)
o1 整个思考只用了6秒,理解了生物和编程结合的需求之后,开始梳理步骤,整个思路非常的清晰明了。
第一次提问后,我让它帮我输出完整完整可运行的代码,方便省事。
o1思考9秒后,直接生成了完整的代码,我挺惊讶的,很难想象这是2次对话,几分钟就实现的效果。
要知道,这个效果涉及到编程的前端和后端,对于编程小白可真的太友好了!
在模拟器中,我们可以把不同的氨基酸添加组合形成新的氨基酸,效果初见雏形。可见,它一次性生成的代码还是有点东西的,瞬间减轻不少蛋白质名字记忆的难度,对于识别蛋白质和创造新的蛋白质真的很有用。
先快速复习一下我们的太阳系:由 8 颗行星组成:水星、金星、地球、火星、木星、天王星、土星和海王星。太阳位于我们太阳系的中心,行星围绕它旋转。如果想要实现一个动画,通过改变行星的半径或太阳的质量,来可视化行星速度的变化。(提示词放在文末,可自取)
它思考花了26秒,意识到需要使用与物理、数学和编码相关的概念来生成输出。
在几轮对话明确想法后,o1 结合了提示词每一步背后的逻辑,将物理和数学合并,把几个视觉元素翻译成合适的代码。初步看来,运行代码后效果还不错,八大行星和和恒星都有,行星轨迹若隐若现。
拨动不同的滑块,能看到不同的效果,对于做实验来说,妥妥够用了。
乍一看以为是静态的,过了几分钟后发现是动态的,下面是几分钟运行加速后的效果,可以看到八大行星都在正常运转,每个的速度也不同,并且大小也不同。
略显不足的是,离太阳比较近的几颗行星,运行范围太小了,以至于都太阳挡住看不清。
本想再优化一下上面两个实验,看来只能能到一周后了。30分钟得到这样的效果,已经非常满意了。
最后
可能你也发现了,之前我们要一步步把一个问题拆分成很多步骤,精确到一步步引导,GPT才能理解并精准回答。
现在不用,o1 出生自己就会。在编程、数学等领域,开始展现出接近人类的思维过程。
要我看,o1 学会思考后,越来越像人了,说不定,明年这个时候,我就被它完全打败了,毕竟谁还不想有个会说能写、思路清晰的 AI 脑子呢?
在这些测试中,o1 展现出了强大的推理能力,但仍然存在输出不稳定的问题。
尽管不稳定、功能尚未全面上线,但o1 系列模型已经为我们提供了强大的工具来解决复杂问题。未来,随着进一步的模型训练和功能完善,我们可以期待 AI 在更多领域实现突破。
Create an interactive Protein Builder Simulation with the following features:
I want to create a scientifically accurate simulation of our solar system with all 8 planets revolving around the Sun at their unique speeds. The simulation should include the following features:
文章来源于“硅星人Pro”,作者“椒盐玉兔”
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0