Sora到底发布不发布，这事可能并不重要了

6646点击 2024-11-19 10:38

Sora是未来的一个碎片

不管你愿不愿意承认，大模型已经进入了更缓慢迭代的节奏。

从“Scaling Law已经撞墙”，到“OpenAI的下一代GPT遇到瓶颈”，再到“Google和Anthropic们的新模型无法再表现出明显的提高”，尽管Sam Altman依然用打哑谜的形式喊着“There is no wall”，但所有人都能感到墙就立在那里，AI们都已经站在了墙的面前。

这对习惯了每天醒来就看到一个模型大更新的人们来说，注定显得乏味了，于是不少人又开始期待Sora——这个OpenAI一直没发出来的模型，能奇迹般的立刻发布，然后拯救一切。

而消息也适时的出现：最新的流言是，Sora将在本周正式上线。包括Runway的联合创始人兼CEO在内的行业人士也“散布”了一下这个流言。

这是个有意思的现象，每当行业沉寂，人们就期待“Sora该出来了”。似乎它能凭一己之力把“大模型又颠覆世界”的事业给续上。

而最近百度创始人李彦宏也被问到了关于Sora的问题，他被问的理由有些不同——因为他是最早明确表示不会“复刻”一个Sora的人之一。

Sora到底发布不发布，这事可能并不重要了

而他的回答也很有意思：

“Sora本质上是在任意场景下的视频生成能力。这件事情有没有意义呢？非常有意义，与此同时又非常难。你想想它的本质是什么呢？本质是可以做到基本可以预测未来。我们今天看到这么一个画面，你可以预测到下一个10秒，这个画面变成什么样子。无人驾驶是一个特殊场景的视频生成，我现在开到这儿了，那我下一秒怎么开，会看到什么样的景象，如果你都能解决的话，那无人驾驶不用做了，都可以靠那东西，可以做出来。”

“预测未来。”——这是个很有科幻色彩的说法，这意味着他其实比很多人更重视Sora的技术意义——就算再喜欢把AGI放在嘴边的人也没几个从“预测未来”的角度来形容它。但同时，这也意味着这种终极能力是今天尚无法触碰到的。

“正因为是这么大的一件事儿，所以我觉得它需要很长很长时间才能够做出来。”

也就是说，它更像一个遥远未来在今天的简单demo——它确实让人向往，但真的要实现，需要的工作还要很多很多年。

现实也正是如此。

进一步放到今天的现实环境，李彦宏认为，“如果真的能够做到任意场景下视频生成，那可能要很长时间，而且成本很高”。

市场研究机构Factorial Funds发布过一个报告，估算了Sora的成本。根据这份报告，Sora至少需要在 4200~10500 块英伟达 H100 GPU 上训练 1 个月。而如果Sora得到大范围应用，为了满足需求，需要约72万张Nvidia H100 GPU，如果按照每片英伟达 H100 AI 加速卡3万美元成本计算，72万片需要216亿美元。

另外，从落地场景来看，今天已经发布了类似Sora的、或者表示已经超过Sora的各类视频生成产品，在效果上也依然挣扎于“抽卡”，在商业化上也依然在继续寻找足够让收支变得合理的场景。恐怕Sora来了也要遇到同样的问题。

应用驱动，会通往更大可能

所以，今天再去看Sora，它发布不发布可能都没有那么重要了。

在展示了一些精挑细选的样片，借此炸场然后不停跳票后，一切都让它看起来更像是提前展示给大家的关于未来的一些碎片。这也让今天行业更加冷静下来后，可以用一个更现实的角度来看Sora。

其实很多人“崇拜”Sora，是被当时OpenAI那句“Sora是世界的模拟器”所打动，认为它是自成一派的新东西。但事实上，回到真实世界里，Sora是OpenAI内部一个小团队做的一次尝试，它用了OpenAI一小部分内部资源（相比其他公司，这部分资源依然可观）孵化的项目。这其实是OpenAI典型的技术创新方式——它的不同团队会基于OpenAI已有的基础模型比如GPT系列、图像模型比如Dalle-3等所积累下来的“要素化”的能力，来组建新的模型和产品，当这个产品成功后，再把它像模块化一样积攒下来，供更多的未来项目所用（比如GPT-4o系列等）。所以它并不是自成一派的彻底的新品种。

这个事实自然在当初一声声“震撼”和“颠覆”声中被忽视了。但今天冷静下来看，除了复刻它，Sora对于AI公司们来说还有更重要的启发，就是一家真正严肃对待AI，以更长期的耐心去做技术的公司，是会有基于技术判断的属于自己的技术拼图的。Sora这样单一的吸睛产品背后，其实更重要的是判断哪些是自己技术路线上最重要的板块，并在技术战略上做取舍。

好在，有这个意识的科技公司正在变得越来越多，其中百度也算是态度最鲜明的之一。

用李彦宏的话来总结，百度的AI技术路线和相关决策都从一件事出发——应用驱动。

“（百度的底层思考）就是应用驱动。这个和美国很多公司做法很不一样，美国很多公司一直都是梦想说我要做颠覆性的技术，我要多少年之内做成什么什么样子。我更多希望尽早接触场景及接触应用，看在这个过程当中，到底遇到了什么问题，把这些问题带回来，我们综合一下，看大家遇到的最多的问题，就是我们优先解决的问题。”

当明白了应用驱动是百度所有战略的起点，李彦宏在战略上放弃Sora类产品的决定就更好理解了。而其他的技术投入方向也会跟着这个原则来确定。

从应用驱动出发，百度的技术方向会围绕让应用更好落地展开，而这个过程里有两个巨大挑战，一个是交互，一个是智能。

在交互上，今天的模型需要更好的人与产品、以及产品与物理世界的交互，单纯的语言模型无法满足这样的需求，需要多模态的能力。

“外界有一种误解就是百度不做Sora，就等于是百度不做多模态。我们非常非常看好多模态，我们也在多模态上有非常长期的多年投入，在真正有应用场景的地方，我们的多模态能力是非常强的。”李彦宏在最近的对话里说。

这是百度一直投入的重要方向。Sora的出现让人们意识到语言之外的视觉模态的重要性，但它远远并非“多模态”的全部。人工智能中的多模态指数据或信息的各种表现形式。除了文本，图像和视频，还包括音频模态、传感器数据（温度、湿度、触觉信息）、代码、数学公式等等。

而在智能上，百度的做法如李彦宏所说——“事实上，我很多的研发资源还是投在了外界看来基础的能力或者理想主义者看重的东西。我们在做，我们不断地在这方面加大投入、付出努力。我只是觉得，没有必要把这些只有极少数人才能够听得懂或者说才会appreciate的东西到处去讲。我需要倒出去讲的是，更多的人，几千万人，几亿人确确实实能够用得到的东西。”从“让几亿人可以用到”的实际出发，被幻觉所扰乱的智能不是真的智能。这是李彦宏希望百度去解决的问题。

于是二者结合，百度推出了iRAG技术（检索增强的文生图技术 iRAG，image based RAG）。它是多模态和降低幻觉两个重点技术方向的融合。它将搜索与文心大模型联合优化，将百度搜索的亿级图片资源跟强大的基础模型能力相结合。李彦宏在最近的世界大会上，展示了它让生成的图片更真实、准确的例子。这样的效果，能够大幅降低影视、漫画，连续画本等场景里AI生成图片的成本。

Sora到底发布不发布，这事可能并不重要了

如典型的百度风格那样，这些多模态底层能力也在第一时间开始寻找那些更清晰的落地场景。数字人是重要的方向之一。

“我们今天讲的多模态，实际上是解决另外一类型的问题。比如数字人，不是纯语言模型，你生成的文字要用语音表达出来，语音表达的时候口型要能对得上，手势应该做什么，我如果转头了，侧面的图像能不能跟正面保持一致等等，看起来都是一个比较简单的事情，但是你仍然需要解决。靠任意场景下生成视频的东西，不一定能把这事儿解决得很好。如果真的能够做到任意场景下视频生成，也许能够解决。那可能要很长时间，而且成本很高。”李彦宏说。数字人是一个全面考验多模态能力的场景，同时也是一个要求更务实方案的真实商业化需求。

“我用简单的方法，就能够做到，那我为什么不呢？先把这些事儿解决了，让这个应用能够跑起来，这是我们的思路。”

据了解，其从2019年起就开始布局数字人领域，在语音克隆、唇形同步、表情动作捕捉等一系列关键技术上有多年积累。今天，百度“曦灵”数字人、“慧播星”数字人已广泛应用于新闻播报、直播电商等场景。

在百度世界大会上，李彦宏也展示了被他称为“角色智能体”的多个数字人案例。这些数字人已经可以做到效果自然、动作幅度更大，在一些场景的转化率已经超过了真人。

“我们非常相信，真人与虚拟人的交互，将创造巨大的产业价值和社会价值。这里的虚拟人，可能就是现实生活中的一位名师的数字分身，也可能是一位名医、王牌律师和金牌销售的数字分身，而你从来没有像现在这样离他们如此之近。”李彦宏说。

当然，除了iRAG和数字人，作为多模态大模型最大的落地场景之一，自动驾驶也是百度多模态能力的重要体现。

2024年7月，百度对外发布了全球首个支持L4级别无人驾驶业务的大模型Autonomous Driving Foundation Model（ADFM），这也是萝卜快跑的核心技术。ADFM包括感知大模型和规划大模型，两者通过联合训练，从原始数据捕捉到油门和转向输出，形成端到端的自动驾驶系统。

Sora到底发布不发布，这事可能并不重要了

这款大模型结合硬件产品与安全架构，通过多重安全冗余与管理策略，确保了车辆的稳定与可靠。Apollo ADFM的引入，标志着自动驾驶技术的安全性与泛化性达到了前所未有的高度，其性能超越了人类驾驶员十倍以上，成功覆盖城市级全域复杂场景。

空谈AGI，不如让真实的应用来给行业信心

所有重要的技术似乎都逃不开曲折前进的周期，而身处其中的人冷暖自知。今天在AI产业里蔓延着的普遍情绪是，泡沫正在慢慢破裂，人们已经无法通过听一些人空谈AGI来获得对未来的信心。

怎么办？

当人们从“颠覆性技术”的预期中醒来，建构信心的方式就需要改变。大模型带来的技术革新依然是巨大的，所以换个角度来看，这个底层技术迭代的“瓶颈期”同时也是各行各业“喘口气”沉下来理解技术在应用上真正机会的“窗口期”。接下来的信心也将来源于此。

认定AI落地和进步需要应用驱动的百度，也在通过实际的成果尝试给行业分享更明确的预期。在百度世界大会上，李彦宏在演讲过程中在大屏上展示了文心智能体平台的TOP100智能体。这些应用的分发量、平均对话轮次、用户喜爱度等指标都令人印象深刻，涵盖了多个行业，包括智能客服、内容创作、数据分析等多个领域。

这些都是在实际解决问题，能让人看到实在用处的AI应用。相比于不少人天天讨论的“超级应用”，这些千行百业的应用大规模出现，可能是“超级应用”的另一种路线。

此次，目前，百度智能云已经在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。百度智能云千帆大模型平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用、文心大模型日均调用量超过15亿次。

Sora到底发布不发布，这事可能并不重要了

有人曾比喻，今天的大模型技术，事实上到了这样一个阶段——巨龙已经被造出，接下来就看谁能更好驾驭它。百度的应用驱动，就是要给各行各业的人们提供更好地驾驭巨龙的可能。

而在这个应用百花齐放的过程里，技术的周期会继续前进。今天AI撞上的墙，很大程度来自于数据的枯竭，而像是iRAG这样的技术，与今天越来越长尾的应用相结合，其实会在更多真实的物理世界的场景里产生新的行业落地数据，它们在模型的推理阶段被收集，再反哺回模型的训练阶段。应用的繁荣最终会促进模型能力的下一次进化。

也许有一天一个 “预测未来”级别的Sora会真正出现，而今天竭尽全力把AI技术转化为各种落地应用的公司，可能反而会在这个接地气的探索中，更早触碰到通往未来的可能。

文章来自于微信公众号“硅星人Pro”，作者“玄宁”

Sora到底发布不发布，这事可能并不重要了

关键词: AI , sora , AI视频 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales