o1研发团队首次集体访谈:教AI数r用了一年半

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
o1研发团队首次集体访谈:教AI数r用了一年半
7182点击    2024-09-23 15:38

笑死,原来o1也像人类一样喜欢赶ddl。


这是在o1团队的“大型见面会”上,OpenAI创始成员Wojciech Zaremba揭开的o1“黑历史”。


o1研发团队首次集体访谈:教AI数r用了一年半


包括Zaremba在内的18名团队成员,在首席研究官Bob McGrew的带领之下围坐一团。


o1核心贡献者Hyung Won Chung、Noam Brown等关键人物,也都在此列。


随着成员们的踊跃发言,o1的发展历程也逐渐被揭开——受AlphaGo和早期GPT模型的启发,想到了将两张背后的范式结合。



后来,团队训练出了第一个可以生成连贯思维链的模型,标志着研究方向开始逐渐明朗和聚焦……


在充满松弛感的气氛当中,众人还分享了有关o1研发的许多趣事:


  • 在OpenAI内部,也喜欢用“数r”来测试大模型能力
  • 为了解决“数r”的问题,OpenAI花费了一年半
  • 技术人员会把代码报错信息直接丢给o1去debug
  • o1曾经说过,生命的意义是“42”,还试图用代数来定义“love”


同时在研究过程中他们还发现,o1不仅比人类更善于发现新的CoT推理步骤,并且还涌现出了自我批评能力。


有网友称赞说,这的确是一个出色的团队,非常喜欢听他们的发言,并且模型的推理能力也确实比以前强。


o1研发团队首次集体访谈:教AI数r用了一年半



量子位整理了这次访谈的实录,下面就一起来看~


o1是什么?推理又是啥?


Bob McGrew:我是OpenAI研究团队的负责人,我们刚刚发布了o1和o1-mini模型。


对此我们感到非常激动,今天我们的整个团队聚集在此,来介绍这两个模型。


什么是o1?


Bob McGrew:所以,(第一个问题),到底什么是o1?


Hyung Won Chung:我们开启了新的模型系列,并且起了一个新的名字叫o1。


这是为了强调,与GPT-4o等之前的模型相比,o1有很大的不同,稍后会有人详细解释。


o1是一个推理模式,所以它在回答问题之前思考的会更多。


我们发布了两个模型——(满血)o1的o1-preview,以及更小、更快的o1-mini,它和(满血)o1采用的是相同的训练框架。


我们希望大家喜欢我们的新命名方式。


o1研发团队首次集体访谈:教AI数r用了一年半


推理又是什么?


Bob McGrew:那么推理又是什么意思?


Giambattista Parascandolo:对于简单问题来说,我们希望提问之后立刻就能得到答案。


比如你问意大利的首都在哪,你不用思考很多也知道答案是罗马。


但如果你想知道一个复杂问题的答案,或者写出一份好的商业计划,或者写一部小说,你可能就要思考一段时间了,并且你思考的越多,最后得到结果也就越好。


而推理就是把思考时间化为更好的成果的能力。


o1研发团队首次集体访谈:教AI数r用了一年半


研发过程的那些事


你们在o1上工作多长时间了?


Bob McGrew:你们在o1上工作多长时间了?


Jakub Pachocki:在OpenAI早期,我们深受AlphaGo的成绩的启发,看到了深度强化学习的潜力,因此我们对其进行了深入研究,并看到了数据和机器人技术的大规模扩展。


我们也开始思考如何才能在通用领域进行强化学习,从而实现非常强大的人工智能。


然后我们看到了GPT范式中扩展和监督学习带来的惊人成果,从那时起,我们就一直在思考如何将这两种不同的范式合二为一


o1研发团队首次集体访谈:教AI数r用了一年半


Mark Chen:项目开始的确切时间很难确定,但已经与Yaku和Shimon进行了早期探索,与Lukash、Ilya进行了早期探索。


一个重要的时刻是Jerry的加入,他推动了这个大型项目的进展。


o1研发团队首次集体访谈:教AI数r用了一年半


研究过程中的“Aha moment”


Bob McGrew:我认为在研究过程中最精彩的就是哪些“Aha moment”,你们的工作当中有哪些高光时刻呢?


Jerry Tworek:我们训练了 GPT-2、GPT-3 和 GPT-4,每一次都成为了媒体上的热点。


但第一次有这种感觉是当模型出来的时刻,所有人都称赞很棒。


对于我而言,这样的时刻是当我们投入了更多计算资源,并第一次生成了连贯的思维链时。


当时我们心想,这和以前的模型看起来真的很不一样。


o1研发团队首次集体访谈:教AI数r用了一年半


Trapit Bansal:当我们考虑训练一个推理模型时,我立即想到的一件事是,用人类的思维过程进行训练。


但我发现,使用RL训练模型来生成己的思维链,结果可以做得比人类写的思维链更好


在我看来这就是一个“Aha moment”,它告诉我们可以通过这种训练方式,让扩展模型的推理能力得到扩展。


o1研发团队首次集体访谈:教AI数r用了一年半


Hunter Lightman:我们花了很长的时间,一直尝试让模型更好地解决数学问题。


为此我们付出了很多努力,我们想出了很多不同的方法,但有一件事让我一直很沮丧,


每次我读到这些模型的输出时,发现模型似乎永远不会质疑自己哪里出了问题,什么时候犯了错误。


但当我们训练早期的o1模型并与之对话时,发现它在数学测试中得分更高了。


通过观察它的推理方式,我们发现它开始质疑自己,并进行了非常有趣的反思


那一刻我感觉哇,我们发现了一些不同的东西。


o1研发团队首次集体访谈:教AI数r用了一年半


感觉模型像人还是像机器?


Bob McGrew:你们在看模型的思考过程时,觉得他们是更像真人还是更像机器人?


Liam Fedus:这更像是一种“精神体验”。


你可以看到模型也会犯很多人类经常犯的错误,又能看到它对一些常识提出质疑。


很奇怪,模型会带有人类的行为。


Wojciech Zaremba:在模型被设定了ddl的情况下,往往会在快due的时候迅速得出结论


好像大模型也知道自己必须立刻给出答案。


Karl Cobbe:我年轻的时候花了很多时间参加数学竞赛,而我进入人工智能领域的原因,就是试图实现这个过程的自动化。


所以对我来说,这是一个非常重要的转折点,因为我看到这个模型实际上能够遵循我解决这些问题时使用的步骤


虽然这不是完全相同的思路,但非常非常可靠。


Wojciech Zaremba:可以相信,这些模型正在成为真正推动工程和科学发展的因素。


如果它们似乎能解决即使专家也难以解决的问题,那么将能够推动科学进步。


o1研发团队首次集体访谈:教AI数r用了一年半


研发过程中的困难


Bob McGrew:我们谈了很多令人兴奋的时刻,那么在工作过程中又遇到了什么障碍?


Jerry Tworek:训练大型模型从根本上来说就是一件非常非常困难的事情。


有成千上万的事情可能出错,而且在每个领域都有事情确实出错了。


所以几乎这里的每个人都像你们知道的一样,在训练这些事情上付出了很多心血和汗水,并想出了如何让模型继续学习和进步的方法。


实际上,成功的道路非常狭窄,而失败的方式却有很多。


Wojciech Zaremba:就像发射火箭一样,如果你偏离了一个角度,你就无法到达目的地,而这就是我们的工作。


Ilge Akkaya:这个模型非常好,通常比人类好几倍,能达到博士的水平。


但是这有时是一个挑战,因为我们必须经常去验证模型没有偏离轨道。


但我们已经饱和了所有行业级的评估,我们不知道下一步该研究什么。


o1研发团队首次集体访谈:教AI数r用了一年半


Mark Chen:这也是一种成就感,就像每次遇到难题一样。


这就像这个团队要克服的另一个障碍,我真的很高兴我们克服了所有这些小障碍。


OpenAI内部这样用o1


如何测试模型表现


Bob McGrew:你们测试模型的方法有哪些,有没有什么喜欢的问题,并发现模型在这些问题上变得越来越好?


Shengjia Zhao:Strawberry里有几个r?


o1研发团队首次集体访谈:教AI数r用了一年半


Wojciech Zaremba:不管是什么原因,ChatGPT无法可靠地解决这些问题。


我们花了一年半的时间,现在我们可以计算出strawberry中的“r”的数量。


Hunter Lightman:我有一个习惯,我想其他人也有。


每当上推特时,都会看到一些帖子说大模型无法解决这类问题。


我就把它复制粘贴进去,然后发现我们的模型可以做到。


内部o1使用方法


Bob McGrew:为了让人们了解他们可以使用这个模型做什么,我很想听听你们使用o1的一些方法。


Hyung Won Chung:我使用o1的方式主要是用来写代码。


我的很多工作都是关于代码的,我越来越关注问题定义,并使用TDD(测试驱动开发)。


因此,我不再编写实现功能的代码,而是专注于编写单元测试。


因为o1可以实现东西,所以我可以专注于重要的、需要解决的高级问题,这真的是一种转移我注意力的重要方式。


另一个领域是debug,现在当我收到一些错误消息时,我只需传递给o1,有时它会立即解决。


即使没有,它至少会给出一些更好的问题,提供一些更好地思考这个问题的方法。


所以对我来说,这是一个非常重要的工作变化,我希望这也能帮助其他人。


o1研发团队首次集体访谈:教AI数r用了一年半


o1-mini的诞生过程


Bob McGrew:o1-mini的故事是怎样的?它是如何诞生的?


Hongyu Ren:我们想把o1系列带给更多人,它有更低的成本,所以做了o1 mini。它是o1框架的最小演示,是“推理专家”。它不一定能知道你喜欢的名人的生日,但是它能有效地推理,并且很智能。


实际上它真的很聪明,比我们之前最好的模型都要聪明很多,几乎与o1相当,但是成本和时延比它低很多。


不过也确实有局限性,可能不知道很多外部世界知识。这与技术本身无关,我们试图让它达到和此前最好模型最小版本差不多的水平,并且仍旧在努力进一步改进它。


用户尝试了o1 mini会很兴奋,因为它推理和思考的速度真的很快。


o1研发团队首次集体访谈:教AI数r用了一年半


是什么激励你做这些研究?


Łukasz Kaiser:我只是觉得在这个世界上,有一些可以做推理、有智能的东西,比想象中小很多。它们可以以不同方式做到这一点,这就非常迷人了。


Giambattista Parascandolo:我觉得这是向模型范式转变的第一步。以前花很长时间才能解决的问题,现在做到了分钟级,这只是漫长道路的第一步。我们希望能在几个月或几年后,迈出第二步。


Wojciech Zaremba:我觉得这很有意义,我们可以对世界产生一些实质性的积极影响。


而且这很有趣,我喜欢对着电脑“说话”,喜欢在集群上开始一项工作,也非常喜欢合作。


o1研发团队首次集体访谈:教AI数r用了一年半


Jerry Tworek:我认为科技可以改善人类生活,我喜欢我们的模型能为人工作,帮助我们解决日常问题,赋予它推理能力让它做事。


Liam Fedus:我认为这一范式解决了一些模型无法解决的问题,所以不仅仅是回答变好一点,而是通过规划、通过错误纠正,它解锁了全新能力,在世界上创造新知识的能力,比如科学发现,我认为这是最令人兴奋的部分。


短时间内,它的自身进化会越来越快,这真的很棒。


o1研发团队首次集体访谈:教AI数r用了一年半


Mark Chen:我们团队中一些成员有数学等方面的背景,这驱动我们自己想去创造一个最好的系统。


Hyung Won Chung:我认为推理比人们想象中的还要强大。当人类想要完成某项任务时,最基本的方法就是推理,你会遇到困难,你必须要找到解决方法。


我觉得AI研究员的工作好像是要找到一种方法来投入更多的计算。硬件方面的研究者在这方面做的很好,很长一段时间硬件成本都在指数级下降。


需要的计算量越来越多,就好像肩膀上的重量越来越重。这个新模式找到了一种方法,来帮我们卸下一些重量。


在这项研究中,你们还观察到什么吗?


Jason Wei:我们发现一个有趣的现象是,每个模型都有自己的“怪癖”。


训练的每个模型在每个任务上的表现都不完全相同。所以模型可能有些任务表现得更好,有些表现得更差。每个模型都有它自己的个性和优点。


最后,原视频在这里奉上~


o1研发团队首次集体访谈:教AI数r用了一年半


原视频地址:


https://www.youtube.com/watch?v=tEzs3VHyBDM


—  —


文章来源“量子位”,作者“克雷西 明敏”


o1研发团队首次集体访谈:教AI数r用了一年半

关键词: AI , AI数学 , o1 , openai
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/