ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
6916点击    2024-09-22 14:16

OpenAI o1团队采访的完整版视频,终于上线了!


全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。



有的人提到,全新o1模型相当于多个博士「合体」而成,往往比人类表现更好。还有的人称,o1发布之后,明显感受到了AGI到来。


「当模型在数学、编码、围棋、国际象棋等领域的表现超过人类时,AGI的未来变得更加明朗」。



来自艾伦研究所的科学家Nathan Lambert对这个视频,做了一个精彩亮点的总结。


一共有8点:


1 强化学习加持的o1,比人类更善于发现新的CoT推理步骤


2 自我批评的涌现,是o1最强有力的时刻


3 让o1「超时」前完成回答,然后突然有了「啊哈」时刻


4 scaling参数规模的挑战,以及继续沿着强化学习算法进步之路


5 许多人提到,相对于算法而言,基础设施显得多么重要


6 通过规划、纠错,o1能够解决世界上的新问题


7 新的训练范式是一种全新的方法,可以将更多的算力投入到模型中


8 o1编写代码时,当其输出要使用的代码时,需要通过单元测试



接下来,具体来看下o1模型背后的故事。


强化学习+思考,o1开启新范式


o1作为OpenAI全新系列,与GPT模型最大不同,就在于推理。


它本质上,是一个推理模型,也就是会比以往「思考」得更多。


在OpenAI研究人员看来,「思考」就是推理的一种最直观的方式。


有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书、写小说等人物时,便需要长时间的思考过程。



毋庸置疑,思考时间越久,结果就越好。


因此,推理是将思考时间,转化为最优结果的能力。


用Mark Chen的话来说,推理是一种「原语」,是实现任何可靠思考过程的必经之路。


关于推理的研究,OpenAI内部其实很早就开始了。成立初期,他们看到了AlphaGo通过RL算法战胜人类的潜力,并进行了大量的研究。


比如,他们曾在2016年开放游戏测试平台「Universe」,是一个训练AI通用智能水平的开源平台。


2018年打造出名为OpenAI Five的游戏AI,成功击败了两届DOTA2国际邀请赛的世界冠军OG战队。



与此同时,数据和机器人领域,取得了重大的scaling进展。


OpenAI团队便开始思考:如何在通用领域做到强化学习,实现一个非常有力的AI?


那便是,GPT系列开启的全新范式。它在扩展无监督学习方面,取得了惊人的成果。



而且,也就是从那时起,研究人员便开始探索,如何将这两种范式相结合——强化学习和无监督学习。


研究人员称,这项努力开始的确切时间点,很难说,但这件事已经进行了很长时间。


「啊哈」时刻


在视频中,有人表示,自己觉得研究中最酷的就是那个「啊哈」时刻了。


在某个特定的时间点,研究发生了意想不到的突破,一切忽然就变得很明了,仿佛顿悟一般灵光乍现。


所以,团队成员们分别经历了怎样的「啊哈」时刻呢?


有人说,他感觉到在训练模型的过程中,有一个关键的时刻,就是当他们投入了比以前更多的算力,首次生成了非常连贯的CoT。


就在这一刻,所有人都惊喜交加:很明显,这个模型跟以前的有着明显的区别。



还有人表示,当考虑到训练一个具备推理能力的模型时,首先会想到的,是让人类记录其思维过程,据此进行训练。


对他来说,啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT,效果甚至比人类写的CoT还好的那一刻。


这一时刻表明,我们可以通过这种方式扩展和探索模型的推理能力。



这一位研究者说,自己一直在努力提升模型解决数学问题的能力。


让他很沮丧的是,每次生成结果后,模型似乎从不质疑自己做错了什么。


然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。


而且,研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。


他惊叹道:我们终于做出了不一样的东西!


这种感受极其强烈,那一瞬间,仿佛所有东西都汇聚到了一起。



还有一位研究人员表示,当你要求模型在「超时」前,完成思考,过程非常有趣。


这就像自己在参加数学竞赛一样,任何思考都是有时限的。


他表示,这也是自己进入AI领域主要原因,而现在,对于自己来说,也算是实现了「闭环」时刻。



另外,o1模型让人惊艳的是,在推动科学发现和工程进步,有巨大的帮助。



对于很多人而言,AGI似乎是一个很抽象、很遥不可及的概念,直到亲眼看见AI在人类擅长的事情上做得更好,才能相信AGI的到来。


对专业的国际象棋和围棋手而言,IBM的Deep Blue,以及DeepMind AlphaGo和AlphaZero,让他们早在几年前就意识到了这一点。


而对OpenAI的这群擅长数学和编码的科学家,o1模型就有类似的意义。更有趣的是,他们的工作相当于是亲手制造了一个可以碾压自己能力的AI。


项目中,遇到哪些困难?


关于过程中遇到的障碍,研究人员们直接表示,训练LLM从根本上来讲就是一件非常困难的事情。


类似于从地球发射一枚飞往月球的火箭,成功的路只有很窄的一条,但有数不清的失败之路,稍微偏离一个角度就无法到达目标。


训练过程出问题的方式可以有上千种,即使在这群才华横溢的研究科学家们手中,每轮训练也会遇到数百个问题。


此外,随着模型变得越来越智能,比如像o1一样相当于手握几个phd学位的人类,评估也变得越发困难。


有时,他们需要花很长的时间来确定模型做的事情是否正确,而且最后很多常用的行业基准也趋于饱和,需要重新找到适合o1能力的基准测试。


除了模型的开发历程,研究人员们还被问到了自己最喜欢的o1模型用例。


Hyung Won Chung表示,o1可以成为很好的编码助手。


他自己在工作时通常遵循TDD(Test-Driven Development)的开发方式,有了o1的帮助可以免去自己编写单元测试的工作,而是直接指定需求,让模型自动编写。


此外,遇到的报错信息也可以直接扔给o1,虽然有时不能直接解决问题,但它可以比编译器提出一个更好的问题,帮助你解决错误。



Jason Wei则表示,自己经常把o1当成头脑风暴的伙伴,而且可以讨论的问题范围相当之广,大到如何解决一个机器学习问题,小到如何起草一篇博客或推文。



他今年5月撰写的一篇关于LLM评估的博客,就借鉴了o1的意见,比如文章的结构、各种评估基准的优缺点以及行文风格等等方面。



在OpenAI工作是一种什么样的体验?


关于这个问题,很多人都谈到了大家的聪明才智,以及团队氛围的融洽。


比如自己吭哧吭哧调试了一周的代码,被路过的同事瞬间解决了;每天和极其聪明的同事共处,让自己逐渐变得谦卑。


Mark Chen形容「草莓」项目是一个非常「有机」(organic)的项目,因为在专业问题上大家都有自己的看法和主见,都有满怀热情想要推动的想法。


当这些想法聚集在一起,就会迸发出火花,像滚雪球一样越滚越大。


然而,有主见的另一面,就是所有人都很坚持自己的看法,但并不固执。如果看到反驳自己主张的客观结果,他们也会随之改变想法。


更值得赞叹的是,这群绝顶聪明的人,同时也很nice,乐于帮助别人解决问题,同事之间一起吃饭、一起出去玩,让采访中的很多研究者都直言,「在这里工作是非常好的经历」。


o1-mini背后的故事


o1-mini发布的动机是,为更多研究人员提供预算较低,但推理能力依旧很强的模型。


它可以称得上是「推理专家」,比以往OpenAI最佳模型还要聪明。


而且,成本和延迟都非常低。



或许,它可能不一定知道一位名人,以其出生日期,但确具备了如何进行有效推理,和大量智慧的能力。


OpenAI研究人员表示,将进一步改进算法,使之能够媲美最好的小模型。


除此之外,全世界的研究人员一直以来,都在投入更多的计算和硬件,使得模型成本在很长一段时间内,呈指数级下降。


然而,一个缺陷是,我们没有去花费更多时间,寻找一种新的方法扭转局面。


o1新范式,便是我们的发现——推理scaling,也能很好优化算力效率。



做研究的动力是什么?


这批「智慧大脑」能够聚在一起,究竟是什么原因,激励着他们去做研究?


一位研究人员称,一想到自己通过不同方式,让模型实现推理,这个过程简直太迷人了。


还有人表示,「好事多磨」。


o1能够回答如此神速,这是朝着能够长时间思考问题的模型,迈出的第一步。未来,还将需要进行数月、甚至数年的研究,让其迈向下一个征程。


「一想到我们少数人能够产生改变世界的影响,就非常兴奋,有意义」。



最抓人的一点是,新范式解锁了模型以前无法完成的任务,这不仅仅是回答某些查询,而实际上已经通过规划、纠正错误,泛化出新的能力。


甚至,o1能够产生新的知识,对于科学发现来说,这是最令人兴奋的部分。


研究者表示,在短时间内,模型将成为自身发展,越来越强大的贡献者。


最后,当o1负责人问道,「还有什么其他观察值得一提吗」?


Jason Wei分享道,「一个有趣的观察是,每个训练出来的模型都略有不同,有自己的怪癖,就像一件手工艺品。这种独特性为每个模型增添了一丝个性之处」。


完整版视频如下:


文章来源于“新智元”,作者“新智元



关键词: o1 , chatGPT , openai , 人工智能