ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Sora背后团队:应届博士带队,00后入列,还专门招了艺术生
8723点击    2024-02-18 15:31

现在世界上最受关注的技术团队是哪一支?


Sora团队,已经来到聚光灯中心。


不仅项目负责人评论区被挤爆,成了????最“景点”。



天才成员们的履历,也正在持续引爆关注。


来自微博博主@木遥


大家伙发现,这支团队挺年轻:两位负责人都是在去年(2023年)刚刚博士毕业,团队里甚至还有00后选手……



也是真的牛:


Tim Brooks,DALL-E 3作者之一,GitHub 5.7k️项目InstructPix2Pix作者,2021-2022年在英伟达实习时,就是视频生成研究的项目负责人。


William (Bill) Peebles,和谢赛宁合作,搞出了Sora的技术基础之一DiT(扩散Transformer)。论文还曾入围CVPR 2022最佳论文候选。

……

这支团队到底什么来头,咱们今天一起仔细聊聊。


应届博士带队


包括Tim和Bill在内,Sora的主要负责人一共有三名(以下排名不分先后)


Tim Brooks,也是DALL-E 3的作者,去年1月刚从加州大学伯克利分校博士毕业。



Tim本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在Facebook软件工程部门实习了四个月。


2017年,本科毕业的Tim先到Google工作了近两年,在Pixel手机部门中研究AI相机,之后到了伯克利AI实验室攻读博士。


在伯克利读博期间,Tim的主要研究方向就是图片与视频生成,他还在英伟达实习并主导了一项关于视频生成的研究。


回到校园后,Tim与导师Alexei Efros教授和同组博士后Aleksander Holynski(现在谷歌)一起研制了AI图片编辑工具InstructPix2Pix,并入选CVPR 2023 Highlight。



去年一月,Tim顺利毕业并取得了博士学位,转而加入OpenAI,并相继参与了DALL-E 3和Sora的工作。


值得一提的是,Tim不仅在专业领域拥有高超的技术水平,还是个多才多艺的人。


据Tim自己介绍,他还喜欢摄影和音乐,高中时他拍摄的照片获得过National Geographic颁发的奖项,本人到过百老汇演出,还获得过B-box国际奖项……



而与Tim师出同门、晚毕业4个月的William Peebles,也是Sora的另一名负责人。


(Peebles在????上用昵称Bill,在Linkedin上及论文署名时用大名William,下文一律用Bill指代。)



Bill本科就读于MIT,主修计算机科学,参加了GAN和text2video的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。


毕业后正式开始读博之前,他还参加了Adobe的暑期实习,研究的依然是GAN,该项目和(时任)卡内基梅隆大学华人学者朱俊彦(也是Efros教授学生,现在在MIT)组有合作,并成为CVPR 2022最佳论文候选。



之后,学期开始,Bill到了伯克利Efros教授课题组攻读博士,研究成果多次入选SIGGRAPH、ICCV、CVPR等学术会议。


2022年5月,Bill到Meta进行了为期半年的实习,和谢赛宁(Bill开始实习时还未离开Meta)合作发表了DiT模型,首次将Transformer与扩散模型结合到了一起。


该成果被ICCV 2023录用为Oral论文。值得一提的是,OpenAI此次发布的Sora,被认为正是基于DiT构建的。



去年5月,Bill也从伯克利毕业,并入职OpenAI。


除了这两位去年加入的研究者,Sora团队的另一位负责人Aditya Ramesh则是OpenAI的“老人”。



Aditya是DALL-E的创造者,主导了三代DALL-E的研究,三个版本的论文当中他都是共同一作。



而这样一位主导三代DALL-E,如今又领导Sora团队的大神,却只有本科学历。


据LeCun介绍,Aditya本科就读于纽约大学,并在他的实验室参与过一些项目。



其间,Aditya就已经在研究生成式模型,并和LeCun共同发表论文。



毕业之后,Aditya本想继续深造,但在OpenAI的暑期实习中被留了下来,成为了正式研究人员。


00后已加入


Sora团队的本科生,还不止Aditya Ramesh一位。


前文提到,这支团队中有一位“00后”Will DePue,就是2022年才刚从密西根大学计算机系本科毕业的。



这位小哥大四的时候创业搞了个市场咨询公司DeepResearch,这家公司后来被Commsor收购。


2023年7月,小哥加入OpenAI。根据他的领英信息,他是在今年1月才刚刚加入Sora项目组的。


另外,David Schnurr和Joe Taylor也都没有博士学位。前者毕业于加州大学圣塔芭芭拉分校,后者毕业于美国旧金山艺术大学。


而正如Aditya Ramesh自己所说,Sora团队的不少成员都是DALL-E 3的作者。



包括两位华人Li Jing和Yufei Guo。


Li Jing是DALL-E 3的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位。在Meta做了2年多博士后之后,Li Jing于2022年加入OpenAI。


华人作者中还有Ricky Wang,今年一月刚刚从Meta/Instagram跳槽到OpenAI,另外两位Yufei Guo、Clarence Ng没有太多公开资料。


新跳槽来的还有Conner Holmes,他在微软工作时以外援形式参与了DALL·E 3的推理优化工作,后来干脆加入OpenAI了。


最后,来看一眼完整作者名单:



从团队的组建情况和研究基础来看,Sora应该是OpenAI近半年来的最新成果,而非网传“早已有之但憋着不发”。


不过,Sora炸场,顶级人才又持续星聚,还是惊得众人开始重新考量OpenAI的技术领先性。


就在今天,作者释出的Sora新作,连“同一场景”下的多机位视频都整出来了。



网友们的心情be like:



现在,是视频生成,下一个又会是什么?


参考链接:

[1]https://www.wpeebles.com/

[2]https://www.timothybrooks.com/about/

[3]http://adityaramesh.com/about.html


文章来自于微信公众号“量子位”(ID: QbitAI),作者 “克雷西 、鱼羊”


关键词: sora , DALL-E , openai
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda