上个月 OpenAI 在发布 Sora 2 的同时将其作为独立应用发布,产品一经上线便登顶苹果应用商店榜首的现象级产品。本篇内容是对 Sora 2 的三位核心负责人的访谈:研发负责人 Bill Peebles、产品负责人 Rohan Sahai 以及工程与产品负责人 Thomas Dimson,Dimson 还参与过 Instagram 产品的搭建。
Sora 的病毒性传播离不开它独有的 Cameos 功能(即用户可将自身形象融入 AI 生成视频),这使得 Sora 并不是单纯的视频生成产品,而更像是一个社交工具:
• Sora 产品设计始终将人类创造力置于核心位置,而非鼓励被动的内容消费围绕;
• Sora 的各种玩法创新以及信息流推荐算法将更多围绕社交关系链展开,团队认为这是 Sora 和其他短视频工具最不一样的地方;
• 把 Sora 作为独立产品推出一方面是看到了之前一系列图片生成产品的爆火和病毒式传播,另一方面则是考虑到 ChatGPT 作为生产力工具的生态定位和用户体验;
• 视频模型长期的目标是 “世界模拟器”(world simulator),它的下一个突破点是可以生成数小时长度的视频内容,并且可以基于“模拟”能力在科研领域创造价值;
• LLMs 和视频生成模型本质上都是在学习“世界模型”,是不过路径和方式并不相同。
Jacob Effron: 你们有预料到 Sora 的爆火吗?
Bill Peebles: 我其实完全没想到它能在应用商店霸榜一个月,这个成绩远超预期。不过,我们的研发团队表现出色,产品本身也具备病毒式传播特质,这是成功的基础。
Jacob Effron:把 Sora 作为独立应用的想法是什么时候产生的?
Bill Peebles:项目初期并没有明确规划,开始想要将 Sora 独立出来是因为之前推出的 ImageGen 效果很超预期,这种体验让我们决定把 Sora 独立。
虽然将不同产品界面合并这件事并不难,但目前 ChatGPT 还是保留了它的今天的“单人特点”,因为 ChatGPT 这种模式下用户在 ChatGPT 里的创作和交互不一定希望被公开,我们也不希望让用户因此产生顾虑。
Jacob Effron:Sora 从最初的想法到现在的成熟,经历了怎样的演变?你们是如何逐步开发出这些 prototype 的?
Thomas Dimson:我一直在思考“社交”在 AI 领域的意义,也做过很多原型探索。
ImageGen 发布前,我们曾在 ChatGPT 内部测试 social media stream 功能,想探索社交与 ChatGPT 的结合点。测试中出现了很多 Reddit trheads 类似的交互形态,比如有人上传图片后,其他人会陆续提出修改需求,让图片不断演变。这种动态变化让我意识到这是 GenAI 独有的创作方式,因为人工很难完成这类即兴的创意生成。
在这个过程中伴随随着 Sora 模型不断完善,我们觉得可以基于这类交互把 Spra 推向大规模应用,因为图像生成虽然效果同样很惊艳,但在部分场景下,尤其是社交场景中,视频的表现力要更震撼。
Bill Peebles:我们其实没有预料到 Cameos 会成为核心亮点。直到有一天,我们团队的工程师 Bobo 想玩一玩,便在 Slack 发起请求,收集成员含“嘿,Sora,我是 XX。嘿,Sora,让我活过来”话术的视频并上传后台,并进行人物标记功能。这一现象起初不显眼,直至几天后大家发现动态全是 Cameos 内容,我们才意识到该功能的强大吸引力。
Cameos 是 Sora 2 推出的“真人出镜”功能,它允许用户通过录制验证视频,将自己的面部、体型、声音特征提取并融合到 AI 生成的任意场景中,实现“真人演员+虚拟场景“的混合视频生成。
Jacob Effron:开发 consumer 应用最有趣的点在于用户总会用我们意想不到的方式去使用。Sora 有没有遇到过这样的情况?
Thomas Dimson:当然。举个例子,有个简单的小视频被翻拍了很多次 —— 内容是一个孩子拆圣诞礼物,结果拆出的是 Bill Peebles 的动作人偶,而且这个人偶和 Bill Peebles 本人几乎一模一样。仅凭几个数字,模型就能呈现出这个人偶,把观看者带入一个完全陌生的场景。
我每天刷动态时,总能看到类似的作品,有的是黏土动画形式,有的是电子游戏主题,虽然表现形式不同,但核心技术是一样的。
但我觉得现在大家的创意还远没把 Sora 的潜力挖透。比如是不是可以把 LucasArts adventure(注:1986年发行的一个经典冒险游戏)里的换成 你的信息或者别人的 Camoes,肯定会很有趣。所以未来更多更新的创意肯定会源源不断。
Rohan Sahai:Storyboard 功能可以生成长达 25 秒的片段,这才是质量标准真正实现飞跃的时刻。这个模型一次生成就能产出这么连贯的故事,哪怕在 Sora 1 上试上百次,也很难达到这种效果。这在 Sora 2 里算得上革命性突破,也充分体现了智能水平的提升。
Storyboard 是 Sora 2 推出的“将自然语言转化成视频”功能,它能自动将创作者的叙事内容或脚本转化为连贯的视觉场景,并且每个场景都具备逼真的景深、风格与基调。
Jacob Effron: Sora 刚发布时,Stratechery 的 Ben Thompson 写过一篇文章表示质疑 ,认为基于其他现有产品来看大多数用户只想消费内容、不愿创作,但后来他改变了态度。怎么看待这一变化?你觉得 Sora 创作热度能持续下去吗?
Rohan Sahai:我们从一开始设计这款应用时,就把创作功能当作核心,这是我们最初的核心假设。
现有的社交媒体平台确实不错,但用户在其中获得的乐趣通常来自内容消费而不是创作,连续不断的刷屏对用户来说也并不好事,所以我们其实很想解决今天算法推荐带来的问题。
最关键的突破还是 Cameos 功能。Cameos 真正给生成内容赋予了个性化温度,让内容有了人性化特质,这是单纯的文本转视频或简单模型提示做不到的。
另外,Thomas 在推荐系统上花了很多精力, 这些功能要是处理不好,很容易彻底失控,比如推荐系统可能会让 Sora 走向靠吸引眼球刺激用户刷屏。所以其实 Thomas 在这方面做了很多开创性工作,重新设计了 Sora 的推荐系统架构,让它真正服务于创意表达,而不是让整个产品变成消费导向的工具。
Thomas Dimson:没错,这里面有些机制其实有 “自我实现循环” 的特性,但只要用户参与到这个网络里,就可能触发这种优化目标。不过我觉得这是健康的:当你主动决定 “我要 remix 这段内容” 时,这种行为本身就很有创造力,能让用户进入深度创作状态,而不是单纯消费。所以 remix 背后的理念是:正因为创作变得这么简单,我们才能鼓励大家用非传统方式创作。
Bill Peebles:Ben Thompson 最初的反馈其实挺打击我的,但他后来转变态度也很合理,因为他一开始只是从 “消费者” 而非 “创作者” 的角度给出看法,并且早期的 Sora 用户面对还没成熟的信息流,体验确实比较平淡。
后来他转变态度时,提了个很关键的点:哪怕创作者和消费者的比例只改变 1%,影响也是巨大的,产品形态也会完全不同。我觉得这很好地总结了 Sora 的特别之处。
Thomas Dimson:其实我们在做一系列包括 Sora 在内的产品原型探索时就有一个对比发现,即“人类创作” 和 “机器人创作” 本质上有根本差异,而这种差异不容易察觉。
但可以试想一下:如果今天我们刷到的 Sora 动态剥离发布者身份,这些内容本身会变得索然无味。所以 Sora 流行的关键在于 “有人审视内容后决定发布”,这相当于盖了个 “认可印章”,所以也可以说是用户确实参与了创作过程,这点很好理解。
Jacob Effron:当产品专注于创作者时,就会遇到一个矛盾:创作者的水平差异非常大。比如,纯粹的消费者型创作者,他们只想轻松地 remix 内容;而专业级的创作者,他们技术水平极高。Sora 已经引入了基础的编辑功能,你们如何规划这个产品领域的长期发展呢?
Rohan Sahai:我觉得 Sora 最有价值的地方在于它真正实现了“创作民主化”,任何人都能参与创作,还能通过不断提升技能,成长为专业级创作者。
那些掌握 Sora 的高手做出的顶级作品,普通人完全可以直接混搭、重构,获取其中所有创作元素,同时还能一步步学习技巧,比如怎么精准引导 Sora 生成内容,怎么设计自己的 Cameos 角色。
我们要做的是持续给到专业级创作者更强大的工具,帮他们突破边界。我们正在推出更多专门针对这类创作者的特色功能,比如分镜功能就是个重要突破,我们最近还上线了基础剪辑工具。
随着时间推移,我希望每个用户都能提升自己的创作水平:既要全力支持顶尖创作者施展才华,更要让每个人都有机会逐步成长,最终成为这样的创作者。到那个时候 Sora 的信息流会变成一个特别惊人的创意池。
Bill Peebles:越来越多人有能力参与创作的终极状态本身就很值得期待,对于个人来说也可能还能成为深入探索创作的入口。
比如我自己的经历里,GarageBand(注:苹果音乐创作软件)就是这样的例子——它的触达门槛低到不可思议,最基础的操作就是拖拽循环音轨,哪怕你不会演奏乐器,也能开始理解“创作的要素是什么”。你先用它做出有趣的东西,深入后就会想:“哦,我真想买个 MIDI 键盘,学吉他,自己录音了”。
我们能做到这一点,核心就是大幅降低了创意入门门槛。
Jacob Effron:从产品动作来看,Sora 提到过要聚焦社区功能和产品创新。你们接下来打算如何做?
Thomas Dimson:其实一开始我们也不确定产品会往哪个方向演变,所以先给了它一个大家熟悉的形态——Sora 的界面看着和其他全屏短视频应用很像,但使用体验完全不同。
我们有个核心假设,现在也正在被验证:和朋友一起用,会有趣得多。
这个特性已经融入了产品设计,我们的推荐系统都在强化这一点。虽然目前这部分潜力还没完全挖透,但未来我们肯定会继续深化。比如随着时间推移,公共信息流会越来越重要,它可以成为用户的灵感来源。
当我们思考“这项技术如何给朋友互动带来新乐趣”时,那些没被想到的可能性特别让人兴奋。具体是什么现在不好说。
我们接下来还会逐步强化私信功能,因为它很可能创造出很多有意思的互动,甚至群组对话能带来的潜力也很大。
整个 OpenAI 团队在 Sora 正式上线前内部就形成了这种连结和活动,大家在产品里互动得特别开心,未来我也希望产品能支撑起这种模式。
查理芒格的 “Show me the incentive and I will show you the outcome.” 在大型推荐系统里尤其适用。
我在负责 Instagram 的时候,我们就明确过“优先展示好友动态”,避免信息流里全是无关内容。当时我负责的 explore 页面虽然是次要入口,但团队目标很明确。后来用户发帖量减少,这个功能才慢慢弱化。
但我们现在看 Instagram 或者 X 平台的信息流,都特别乱。我们大幅降低创作门槛后,反而可能加剧了这种“信息杂乱”的问题。但挺有讽刺意味的是,恰恰是 AI 生成视频,让用户和朋友的联结变得更紧密了。
Jacob Effron:Sora 推出后,名人和版权方都在快速了解、适应这项技术及其应用方式。能不能聊聊过去一个月里他们的变化?目前大多数人对 Sora 的认知大概在什么水平?
Rohan Sahai:Sora 上线后,我们和各个领域的人都聊过。一个月前,大多数人甚至不知道 “视频生成技术” 存在,更别说想到它会成为热门应用。但随着交流深入,我们能感受到他们对平台的热情,尤其是版权持有者 —— 对他们来说,Sora 蕴含着巨大价值。
最近我们刚推出 character Cameos 功能,可以想象一下:如果一个热门 IP,现在任何孩子都能用这些 IP 角色生成内容,其实对版权方来说意义特别大。
同时我们也很重视版权方的顾虑,确保他们能参与决定 “角色该以什么方式呈现”。他们希望设置一些限制,避免平台变成完全自由的创作空间,这一点我们能理解。
同时,我们还宣布 Sora 会引入货币化功能。未来我们计划给版权方提供新的内容变现途径,而且会优先支持那些从平台初期就投入资源的创作者。我相信这会带来很不一样的成果,接下来也会启动试点项目,帮版权方探索变现新方式,尤其是早期就参与的创作者 —— 现在加入的用户,我们相信他们能看到明显的成果。
Jacob Effron:有没有哪位特定的名人或版权方让你觉得“他们已经理解了”这项技术的潜力?
Bill Peebles:我可以举 Mark Cuban 的例子,他允许用户创建包含他形象的AI生成视频,但在形象设置中加上了自己的制药公司 Cost Plus Drugs,所以其他用户用 Mark 形象创建的视频本质上就成为一种免费广告,我觉得他是最早意识到这个功能潜力的人,从品牌广告的角度看,这项技术无疑是个大机会。
Jacob Effron:在 LLM 领域,用户的期望似乎已经被“宠坏”了,现在大家普遍觉得你们推出的产品成本应该能低上百倍。在视频领域,Sora 是否能在 6 到 12 个月内实现类似的成本突破?
Rohan Sahai:肯定会。2024 年 2 月,我们第一次向外界展示 Sora 1 时,生成一段 720p 短视频的计算成本大概要 50 美元,而 Sora 2 的 API 定价,和当时比几乎是九牛一毛。所以这次发布不仅是成本大幅下降,模型的智能水平也有了显著提升,而且这种趋势会一直延续下去。
当用户日均使用量达到 30 次后,适度收费显然是合理的。至少从目前网络上的反应来看,并没有出现强烈抵制,这可能会是 Sora 商业化中很自然的第一步。

Sora 负责人 Bill Peebles 在 X 上宣布 Sora 开始进行收费尝试
我们的商业化要顾及两个目标:既要覆盖推理成本,也要用收费机制激励版权方等各方参与进来。但核心是构建一个让所有参与者都能受益的生态系统。
比如,Sora 的 GPU 开销需要覆盖,同时我们也希望平台上的新创作者,这些人可能在 TikTok 或 Instagram 上没有任何粉丝基础,但是他们可以在 Sora 上实现变现,那些拥有丰富 IP 的版权方,也应该从中获得收益,毕竟这些角色本身就深受大众喜爱。
在构思变现方案的过程中,我们每天都在学习和调整。总体上我们希望是一个循序渐进的过程,目前看来先为生态里的创作者打通盈利通道是最重要的。
所以当下我们采用的 30 free gens/day 的付费方案未必是 Sora 最终的盈利模式,我们还在探索,并且整个过程保持开放、透明。为我们想要找到一个对包括 OpenAI、用户、创作者以及 IP 方等所有人都有利的状态,这一点对于平台长期发展也是很重要。
Jacob Effron:你们有探索过其他的定价模式吗?
Bill Peebles:短期内还没有,但我想回到前面提到的“如何彻底重构品牌营销模式”。
随着 GenAI 视频技术的出现广告商应该重新定义内容的呈现方式。比如现在用户刷 Instagram,广告视频内容都是固定的,但如果创作者愿意让视频里一些元素都用来展示特定品牌,还能把这些展示权拍卖给品牌方,这会是一个全新的创意领域。
Thomas Dimson:从我自己的亲身经历出发,这个平台最有趣、也最与众不同的地方在于 Cameos 以及它所具备的传播属性,并且我相信这个特性还会被持续放大。
作为首批早期用户,我也开放了自己的 Cameos,现在我大概有 17000 次“出镜”,如果把这些视频的观看量加起来,数字非常惊人。
这种影响力几乎是其他平台无法比拟的。因为其他平台需要用户亲自创作内容才能获得传播。
而我真心享受在 Sora 上的这种状态:喜欢记录日常点滴,时常更新 Cameos 指令,比如突然发现自己穿了件酷炫衬衫,就对着镜头即兴来段音乐表演。所以我觉得这种形式特别有趣,目前还没有完全相同的模式能类比这种体验。
现在已经涌现出很多新型媒介形式,有意思的是,它们正以不同方式拓展传播的边界,这不再只取决于你发布的内容本身,更在于如何通过新技术创造出更多的互动和连接。
Jacob Effron:Sora 特质之一也在于它的全球性,这是一个全球用户群体中爆火的产品,你们有注意到了不同地区的用户使用时出现的差异吗?
Thomas Dimson:我们最初是在美国和加拿大推出,之后扩展到韩国、日本,前几天我们刚在东南亚部分国家上线了产品。整个过程中发现不同地区的创作风格差异特别明显——尤其是在 Cameos 功能的运用上,每个地区都有自己的独特玩法,特别有启发。
我目前在 Sora 上的体验其实和我用 TikTok 很像,我是 TikTok 的重度用户,也特别喜欢这个平台。从上面我学到了不少东西,比如有人分析某种行为的心理机制,或者聊依恋理论这类内容,有时候会突然觉得“哎,这不就是在说我吗?”,然后赶紧去查资料。我觉得这种“通过内容学知识”的现象会越来越普遍,跨文化内容也是如此。
每次看到不同国家用户做的创意混剪,我都觉得特别有趣,每段作品都带着浓浓的本土风情。最让我着迷的是,去了解人们渴望看到什么场景,想把自己和朋友放在什么样的画面里。大家关注的点特别有意思,有些事在旁人看来微不足道,但你只要去留意“人们在乎什么、笑点在哪里”,就会发现无数有趣的“痴迷点”。今天我就碰到一位用户,她特别痴迷起重机,说“我就是喜欢想象自己站在起重机顶端的感觉”。
Jacob Effron:Sora 团队肯定要需要根据对产品的预期预留 GPU 容量,这个指标你们是如何测算的?
Rohan Sahai:这个指标没有精确标准,算力资源的瓶颈是全行业问题。视频类产品计算密集,推出 Sora 就需要公司在其他领域做出权衡。但 OpenAI 的优势在于全员责任感强,所以无论 ChatGPT 视觉功能还是 Sora,团队都会全力保障用户体验。
Jacob Effron:之前提到 Sora 未来可能和 ChatGPT 实现某种整合,你们怎么看待 OpenAI 正在研发的其他项目?这种整合大概会在什么时候启动?
Bill Peebles:ChatGPT 本质上是用户的助手,这是我们一开始就给它定的定位——那它为什么不能用有价值的视频来回应用户呢?而且不同产品之间的交互方式,本身就藏着无限可能。比如,你可以想象一下:在浏览器里操作时,旁边有个视频小助手——相当于你的智能管家——跟你说“我帮你订这趟航班吧”。市面上其实已经有过很多这类天马行空的创意了。
Thomas Dimson:这些功能是相互支撑、逐步构建的。推理模型在追求 AGI 的过程中,潜力确实巨大——不过我一开始没把内容审核系统当成它的核心应用场景,现在想来,这其实是个绝佳的应用方向。
ChatGPT 在整个生态里有它的独特性,某种程度上是“神圣不可侵犯”的。这不是说它不会随时间演变,或者我们不能给它加新功能,而是它本质上更偏向“实用驱动型”场景。娱乐场景和实用场景的融合往往不容易,所以不能简单把两者硬凑在一起。
Jacob Effron:Google 和 Meta 最近也都推出了视频生成工具,你如何看整个视频生成这个领域接下来的发展?
Thomas Dimson:视频生成模型的机会相当明确,现在整个行业正处在一场彻底的变革中,新技术就是这场变革的核心驱动力之一目前看 Sora 仍会保持领先。
对 Sora 来说,虽然目前有些商业化作品的表现没让我特别惊喜,但这也让我重新梳理了我们的核心理念——那就是要“拥抱人群”。人类天生就有创造力,而社交网络的核心本质,正是人与人之间的联结。真正推着我们往前走的,其实是 Cameos 功能背后的思路:把创造力融入人和朋友的互动里。这一点,似乎被很多同行忽略了。
我们走到今天,经历的是一段非线性、充满波折的过程。当时我们确实构想了 Cameos,但也有过不少其他尝试。比如“混搭”在这个场景下到底意味着什么?我们曾有个特别另类的方案——录制自己对 AI 视频的反应,然后放在视频角落里。虽然当时没人看好,但我一直觉得这个想法很有意思。
那段时间我们试了很多方案,连界面都反复调整过。早期的 ImageGen 界面特别简单,只有联系人列表,用户选好要加入的人就能生成内容。现在回头看,这个设计逻辑很清晰,但在当时并不容易被理解——而这恰恰是“Code Purple”计划的核心思路。
不过产品研发就是这样,无数个微小的决策,最终都会影响成败。我记得和 Instagram 联合创始人 Mikey 聊过,我们一开始以为“方形照片”是 Instagram 强加的限制,可能是他们不想处理复杂的比例问题,可后来才发现,这个“限制”正是它成功的关键。
总的来说,这个领域的竞争肯定会越来越激烈,但我有信心我们能守住领先地位——至少我们正朝着这个方向努力。核心就是要拥抱用户,把创作工具真正交到他们手上,这也是我们现在最核心的动作。
Jacob Effron:过去一年中在 AI 领域你们的观点有什么变化?
Bill Peebles:我最大的感受是,有些领域的发展节奏被加速了,有些则慢了下来。我们常说技术潜力大,但说实话,之前高估了消费者的接受度和技术普及速度。从基础研究来看,我们可能走在大众认知前面,但在做“好用的产品”和“普及教育”上,其实滞后了。
企业端应用更复杂,还要面对监管这些障碍,很多人只看到消费级产品的便捷,却没意识到背后要付出多大努力。要让大家真正接受 AI 技术,还有很长的路要走。
Rohan Sahai:我对 AI 的认知可以说彻底更新了。一年前如果有人问我,商业大片和 Sora 3 级别的生成电影哪个重要,我会说“只要 Sora 生成的内容制作精良、剧情吸引人,就和大片一样有价值”。当时我觉得,内容质量达标就够了,但现在不这么想了。哪怕是我自己,也未必会被纯 AI 内容吸引。真正让我感兴趣的,是人类创作的“碎片”,是通过生成内容传递的有意义的信息。这是我这一年最大的认知转变。
接触模型越久,越能感受到“没有明确创作意图”的内容有多空洞,而且这一点挺出乎我意料的,毕竟我本来就很享受建模过程。生成内容本身确实惊艳,画面生动、细节逼真,但在 Cameos 里看到熟人的惊喜感完全不一样。所以当我对内容产生情感共鸣时才明白,那种“人与人的联结”才是关键。
Jacob Effron:现在每个应用开发者都在思考一个问题:是围绕现有模型搭建框架,还是彻底放开让模型自然进化?你们团队从整体上怎么看这个问题?
Rohan Sahai:OpenAI 的魅力在于我们的 AGI roadmap 图,无论竞争对手如何推出新产品,无论面临多少产品压力,我们都始终坚持这条路线。这就是我们开发 Sora 的哲学。随着模型不断变强,我们也不断发现它们蕴藏的惊人能力。这使得我们和 Thomas 非常忙碌。像 Cameos 这样的功能,或是混音功能,都是我们团队和产品团队杰出成员深度合作的结果。我们共同探索这些模型能带来哪些疯狂的创意。
Thomas Dimson:运用这些技术,需要极具创造性的视角,或者说要有“勇于试错”的心态。
比如我们曾尝试完全 AI 生成内容、不做任何人工干预,结果并不理想;但反过来想,在游戏等领域,即便用现在的 LLM 和视频模型,也能以很有趣的方式落地创意。
所以关键是跳出固有思维框架,而不是照搬 OpenAI 的路线图,本质问题是,如何给技术赋予一种新颖的诠释方式。尤其消费级领域更需要探索“什么是创新、什么是突破”,我们要拥抱这些可能性。
Rohan Sahai:这也是我们推出 Sora API 的原因之一。就像 Thomas 说的,这些技术能支撑海量应用开发。而我们 Sora 团队规模很精简:大概 9 到 10 名研究员,产品团队不到 20 人,系统团队约 13 人,总共才 40 人左右。但那些有创业精神、想开发新应用的人,现在都能通过 Sora API 实现自己的构想。
Jacob Effron:有没有哪些基于 Sora API 的应用、创意让你们感到特别兴奋、有启发?
Rohan Sahai:Mattel Shop(美泰玩具)就做了些很酷的事,他们一直在用 Sora 开发新玩具原型。虽然 Sora API 才上线三周,但人们已经展现出不少奇思妙想了。
Bill Peebles:我见过有人把 CAD 文件转化为可视化模型——用户先把 CAD 文件转成 Sora 能理解的描述文本,最终实现了零件可视化。当时我觉得精度还不够,但对方解释说这其实很重要,因为某些关键信息一旦缺失,完整设计就无从谈起。
Jacob Effron:能否梳理下过去几年 AI 视频技术的进展?或者分享一些对你们来说重要的里程碑事件?
Rohan Sahai:在视频领域,过去很长一段时间几乎没什么突破,核心进展都集中在图像生成。图像生成的重要早期节点,是 OpenAI 几年前发布的 DALL·E 1,这也是我们第一次看到 LLMs 的突破性通用能力开始延伸到视觉生成领域。
在此之前,虽然有一些特定领域模型(比如人脸生成),但从没有模型能清晰展现这种“通用建模能力”。从那以后,技术方向就越来越清晰了。真正掌握图像生成能力花了好几年,DALL·E 2 和 DALL·E 3 的出现,让我们有了更强的工具。2023 年初我们启动 Sora 项目时,就是和 DALL·E 3 并行开发的。
当时我们已经集齐了实现重大突破的所有要素:开始理解如何规模化操作,扩散模型的理论和架构也逐渐完善。Sora 1 可以看作视频领域的“GPT-1 时刻”——我们第一次能生成高分辨率、连续的 60 秒视频。之后就不断推动智能和实用性的边界,拓展技术的可能性。从 DALL·E 2 到 Sora 2,不只是能力突破,更是在理解和落地实际应用上实现了飞跃。
Jacob Effron:这一系列突破是超出你们预期的惊喜,还是沿着 scaling law 必然会发生的?
Rohan Sahai:我们早就预判到了这种突破,尤其是当模型对物理规律的理解能力显著提升时,变化特别直观。比如当模型能生成流畅的体操动作,或者让玻璃杯摔落时呈现真实的碎裂效果,我们就知道“抓住关键了”。看到这些场景,我们意识到视频技术不会像大型语言模型那样缓慢发展,而是会加速前进,最终的突破甚至会超越我们的预期。
视频领域的下一个突破点,会是能模拟持续数小时甚至更长时间的过程。我们对 Sora 在知识工作、甚至生物学和物理学研究等领域的应用充满期待。
比如模拟实体实验室的过程,就需要建模上的重大突破——这些模型得能持续运行数日、数周甚至数年,这对我们来说是巨大挑战,涉及GenAI建模里的很多基础性问题。
Jacob Effron:机器人领域一直在解决一个问题:仅凭模拟数据,能实现多大突破?虽然大家认为模拟数据能解决部分问题,但在操作类和复杂任务上仍有很大挑战。视频生成模型能在那些原本需要大规模采集现实数据的领域,它能推动多大发展?
Rohan Sahai:我认为视频模型会成为推动这些领域进展的关键工具。就像你说的,机器人技术的核心难题之一,是很难获取大规模的预训练轨迹数据集;而视频模型显然能深刻理解运动机制和灵活性相关的任务,所以我们对把 Sora 这类模型应用到这些领域很有信心。
我可能比 OpenAI 的很多人更乐观:那些基于早期视频模型但没出成果的传统研究方向,随着基础模型智能的提升,最终一定会突破。
Jacob Effron:在生物机器人学、材料科学等领域,是否必须依赖这些尖端的视频模型?
Rohan Sahai:我认为这个趋势会越来越明显。这些新兴领域的前沿探索,核心似乎都指向“更长时长的视频处理能力”和“保持虚拟世界物理规律真实性的能力”——本质上都是在追求“世界模拟”的目标。关键是让 Sora 不只是一个视频生成系统,而是能深度理解现实世界的每个细节,执行超越娱乐领域的任务。
娱乐当然很精彩,就像现在 Sora 展现的那样,用户能从中获得巨大价值,但这只是视频技术的第一阶段,是现有模型能力构建的最基础形态。未来几年,视频技术的价值会呈指数级增长。
Jacob Effron:你是否设想过某个 benchmark?比如当视频模型能够实现某个特定功能时,是否意味着技术突破的到来?
Rohan Sahai:我认为视频模型通过模拟某些现象实现的首个科学突破,会成为标志性里程碑——这将真正打开新的大门。我们团队经常讨论“这个突破会是什么”,虽然误差范围很大,但和经典物理相关的领域很可能先实现突破。
视频是理解物理现象的理想工具,尤其是那些能通过观测数据清晰呈现的现象。虽然没法精准预测具体方向,但这无疑是新时代开端的标志。时间线上我很乐观:如果到 2028 年初还没实现这类突破,那才是意外。
Jacob Effron:在 LLM 领域,存在可遵循的规模化规律吗?视频领域的发展,是否会和 LLM 类似,依赖数据突破、算法突破与 GPU 数量增加的组合?人们该如何调整思维模式?
Rohan Sahai:进步有多个维度,规模化确实是重要方向,但当我们思考“如何实现长达数年的模拟”时,可能需要全新突破——现有技术未必能直接移植。这种做法或许可行,但如果要构建“替代现实”的系统,它必须记住每个细节,比如纸上每个字符、外套布料的纹理,这似乎需要创新方案。所以这个领域还有很大探索空间。
Jacob Effron:你们现在如何评估视频模型?如何判断模型是否进步?
Bill Peebles:其实我们在某些领域已经进步很大了,尤其是从 Sora 1 到 Sora 2 的迭代。我们深刻意识到,优质评估对模型进步至关重要。现在我们有了实际落地的产品,发布前对这些场景有足够信心,这让我们能构建基础的产品评估体系。
比如我们会把 Sora 1 的顶级提示词输入 Sora 2,对比两者的输出差异;现在进入了真实生产场景,Cameos 功能就是很好的案例——每次做调整,我们都要搞清楚它会如何影响这些核心应用场景。
Jacob Effron:视频模型有个明显问题:如果把所有人的偏好取平均值,最终可能得到一个毫无个性、对谁都不完美的模型。你认为随着时间推移,会出现多种美学风格、适用场景各异的模型,还是最终收敛到一个“可随意调整偏好”的单一模型?
Thomas Dimson:这和推荐系统很像。人们想到推荐系统时,即便不深入思考信息流设计,也常会想到“按热门排序”——这种做法本质就是“回归均值”,对任何人都没吸引力,因为它只代表全球流行趋势,未必符合个人偏好。
真正的创新,在于引入多样化的个性化方案,用多种方式实现“千人千面”。最直接的就是分析用户历史行为、预测需求,这能大幅提升信息流的相关性和呈现效果。
这种现象几乎无处不在,比如 ChatGPT,个性化已经成了关键设计要素,决定着模型和用户的互动方式。虽然不直接谈视频模型,但在推荐系统领域我们很快会发现:给每个人定制专属模型不现实,会导致基础设施混乱;而通过群体智慧做协同过滤,发现用户间的相似性,反而能实现很好的规模效益。
Bill Peebles:如果说“像人类一样感知世界”是衡量模型智能的标准,那模型中的多样性和对不同风格的理解,就是智能的核心。Sora 2 在这方面的表现让我很惊叹——它不是最疯狂的特性,但绝对是最震撼的之一。Sora 既能呈现电影级画面,也能处理门铃监控录像这种生活化内容,还能驾驭动漫感极强的场景、各种动画风格和独特镜头。这种表现力太惊人了,我们应该继续深挖这种潜力。
Jacob Effron:用简单的方式解释一下,这些模型是如何学习物理原理的?
Rohan Sahai:从核心逻辑来说,这些模型本质上都在做“预测任务”。拿扩散模型举例,我们会给原始视频添加大量噪声,神经网络的目标就是把被噪声掩盖的原始信号“猜”出来。LLM 其实也是类似的思路——根据前面的词,预测下一个该出现的词。
不管是 LLM 还是 Sora,本质上都在学习“世界模型”,只是路径不同。关键在于:不管是预测视频信号还是预测下一个词,都得先理解世界的运行规律。比如我要写押韵的诗,要是脑子里没有诗歌结构、语言韵律这些知识,根本没法准确预测下一个押韵的词;视频模型也一样。
就说 Sora,要是收到“有人打篮球”的提示,它得先搞懂篮球怎么弹、怎么运,光线照在球上怎么折射,连这些细微的物理细节都吃透,才能生成真实的场景。这种能力看着平常,其实是海量数据和计算催生的“涌现特性”——不知不觉间,模型就把物理规律学进去了。
要是模型不懂世界的运行逻辑,表现肯定比不上懂的模型,计算时的“损失值”也会更高。这种优化压力,恰恰逼着模型从海量视频训练中,慢慢把物理特性“学”出来。
Jacob Effron:LLM 领域是从处理互联网数据起步,慢慢能用到各领域研究成果这类高质量数据。视频领域有没有类似的优质资源?比如某些复杂的物理现象,对模型来说是不是特别有学习价值?
Rohan Sahai:这个问题其实不好回答,因为视频智能和文本智能完全不是一回事。比如一段讲微积分的讲座视频,它的价值在“知识传递”,能教你数学、物理的深奥概念,这是文本式的智慧;但一段体操视频就不一样了,除了动作编排,没有更高层次的知识输出,真正有价值的是那些细节——运动员肢体的碰撞、背景里人的走动,模型得把这些都模拟出来,才算真正学会。
所以我们还在摸索:到底什么样的数据能养出顶尖视频模型?视频的“多模态”特性太强了,里面藏着各种不同类型的智能片段,这是文本等单一模态比不了的。我们要做的,就是把这些分散的智能点都挖出来,变成模型的能力。
文章来自于“海外独角兽”,作者 “Grace”。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0