ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
外媒抢先实测Sora,视频大翻车惨不忍睹?不懂物理/动物变形/速度巨慢,但初创公司已经创死一片
9747点击    2024-02-28 15:49
Sora颠覆影视业,现在来看还远。Bloomberg记者亲自试用后发现,Sora生成的视频还是翻车严重。而且,它的速度太太太太慢了!不过尽管如此,OpenAI已经创死了一片初创公司。


虽然功能还未正式开放,但已经有外媒抢先上手体验了!


结果就是——Sora翻车了!


最近,就在外界对Sora一片赞誉声之时,一些冷静的外媒,也开始发出了质疑的声音。


Bloomberg认为:Sora的确令人印象深刻,但它尚未准备好迎接未来的黄金时段。



原因就在于,Sora现在对于身体部位的理解和物理学的复杂原理还无法完全掌握,并且,它处理请求的时间,实在是太长了!



用作者Peebles的话来说就是,Sora的速度太慢了,你可以在等待视频生成时去吃点零食。



Sora翻车:鹦鹉猴子傻傻分不清,还巨慢


因为Sora至今仍在红队测试中,还无法直接访问。只有被选中的艺术家、电影制作人和设计师才能获得访问系统的权限。


为了一睹传说中视频王炸模型的真正实力,Bloomberg的记者给OpenAI的研究者发去了这样一段prompt——


「An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.」


大意是:一只绚丽多彩的鹦鹉在哥斯达黎加的繁茂丛林中翱翔,最终停落在一枝树干上,与一群猴子分享一块甘甜的水果。正值一天中最为美妙的黄金时段,阳光透过树冠,照在叶片和猴子洁白的毛发上,闪烁着金色的光芒。


Sora生成的视频是这样的。



看上去还不错,对不对?


然而如果仔细看,就会发现不少问题。


比如,鹦鹉的翅膀在飞过猴子时会发生扭曲。



prompt里只要求一只鹦鹉,Sora却生成了好几只。


此外,水果本身,以及上面变换莫测的爪子,都透出一股诡异的气息……



最好笑的是,不仅其中一只鹦鹉像是「挂了」似的脖子突然一歪,而且旁边的猴子也秒变「不明生物」长出了一条鹦鹉尾巴。



对此,Sora作者、OpenAI科学家Bill Peebles是这样解释的:「的确,现在Sora在某个片段的不同阶段会出现一些奇怪的动作。但是,Sora能够对这种复杂程度的场景进行建模,


已经表明了它的视频生成能力有了质的飞跃。」


Sora什么时候来?不急


具体哪一天能用上Sora呢,我们已知的是,至少目前还遥遥无期。


OpenAI发言人Natalie Summers 表示,OpenAI没有设定发布Sora的时间表,因为希望能降低它和选举相关的安全风险。


毕竟,AI Deepfake已经多次有黑名单记录,如果正值此时发布新的AI视频工具,会让OpenAI显得很可疑。


且不管安全问题,Sora在准备好进入黄金时段之前,仍然有很长的路要走。


OpenAI自己也在技术报告中承认,Sora对身体部位的杂散问题和对物理学的混合理解,仍有很大的进步空间。


当然,这个问题也不是只有Sora才会遇到。它是Runway、Pika等AI视频所共同面临的问题。



Runway生成的威尔史密斯吃面


而且,对于每个视频,Sora都需要消耗更多的算力,也需要等待更长的时间。


这个时间,可不是像DALL-E 3生成单个图像那么简单。


Sora处理每个请求的时间究竟是多长呢?


OpenAI没有明确回复,但Peebles表示,它「绝对不是即时的」,因为「你可以在等待模型运行的时候,去吃点零食。」


这个过程可能非常漫长,因为Bloomberg记者给了OpenAI四个prompt,但他们只给了两个视频,另外两个实在是没时间做了。


商标注册信息,暴露Sora真实能力:难怪会狙击Gemini 1.5 Pro


就在最近,OpenAI申请的Sora商标注册描述也曝光了!



其中对Sora能力的介绍如下——


生成视频和图像;

基于自然语言提示、视觉提示、文本、语音创建、生成和编辑视频和图像;

视频和图像识别、处理、分析、理解和生成;

编辑、组织、修改、传输、上传、下载和分享视频、图像和音视频材料;

创建和生成文本到视频以及文本到图像的内容。

文件曝光后,让AI研究者们更吃惊了!


所以,Sora不仅可以生成视频,还对视频和图像有理解能力?


谷歌的Gemini 1.5 Pro可以分析1小时的视频,而Sora也具有类似能力,真的可以说是降维打击了。


大家后知后觉地明白过来:Gemini 1.5 Pro发布后不久,OpenAI就拿出Sora来狙击,看来还真是不无道理。


现在从OpenAI的模型推出计划来看,Sora目前应该是处于「评估和迭代开发」阶段。


下一步将是分阶段推出阶段,包括私人测试版、测试用例和进一步的安全测试。



搓搓手,目测一年内应该能等到。



Sora新演示来了!


与此同时,TikTok上,OpenAI的账户一夜爆火,几天内涨粉18万,收获接近100万赞。



而最近,Sora的TikTok账号上还在不断放出新视频。


比如这个一厨房的厨师和厨具的视频,就是Sora根据DALL-E 3生成的图像生成的视频。


首先,DALL-E 3生成了这样一幅静图。



然后,Sora根据这幅静图,生成了下面这段视频。



在评论区,有人留言表示,想看看Sora创作出从来不存在的生物。


现在,Sora也来交卷了。根据Prompt「创造一个从未存在过的逼真动物,自然纪录片风格」,它生成的视频是这样的——



来源:小互


乍一看怎么像是帕鲁们来到3次元。(手动狗头)


OpenAI创死所有初创公司,投资人大喜:还好我没投


最近,所有VC的会上都在谈Sora。


OpenAI的每一次技术突破,都拓展了资本圈对AI的想象空间。代价就是,大多创业公司的路,也被堵死了。


半个月前,Sam Altman发布AI技术Sora制作的超逼真电影视频时,所有人都意识到,无论是科技行业还是好莱坞,都敲响了警钟。



外媒The Information发现,自己长期跟进的至少七家开发AI视频生成器的公司,已经感到了恐惧。


同时感到恐惧的,还有给他们投了超过5.5亿美元的投资人。


在Sora视频在全网引发狂潮后,一位投资人私下表示:太幸运了,最近一家热门AI视频初创公司的一轮融资,还好自己错过了。


而另一位资助了AI视频初创公司的投资人表示,让自己感到欣慰的是,如果真的发生了这种情况,或许这家初创公司强大的领导者,会使其成为一个很好的收购目标。



Sora的视频亮点,就在于它在模拟现实世界的物理原理,尽管并不完美。


但是AI视频如此神速的进步速度令人震惊,也让人不得不相信:它很快就能制作出成熟的电影了。


风险资本家马特·图尔克在X上的一篇帖子中半开玩笑地说,或许到2025年,我们就可以让Sora拍一集今晚就要播出的《毒枭》,要求布拉德·皮特、野兽先生和特拉维斯·凯尔斯主演。


全世界看向Runway


Altman扔出Sora这个王炸后,所有目光都集中在了Runway上。


此前,在AI视频领域,Runway可以算得上是领头羊之一。


它的产品中添加了AI功能,甚至包括从头开始创建视频拆条的能力。


Runway的AI视频生成器,使用了Runway自己开发的潜在扩散模型,因此市场认为这家小型初创公司有可能会迎头赶上,也不无道理。


当然,现阶段的Runway视频,还无法和Sora对打。


因为分辨率太低,它们会不由得让人产生恐怖谷效应。


另一处鲜明的对比是,Runway用户一次最多只能生成16秒的视频,而Sora却能做出一分钟的长视频。


Runway CEO Cristóbal Valenzuela表示:视频模型代表了创意产业未来的一些最重要的技术,所以思考这个问题的人越多越好……还有很长的路要走。



其他竞争对手的发展,也不容小觑,比如Meta、Stable Diffusion、Pika等,最近都推出了类似的AI视频产品。


以AI生成图像闻名的AI初创公司Midjourney,现在也在准备自己的视频产品。


大家共同的问题:如何盈利?


AI视频,会成为摇钱树吗?


一个大问题是,AI视频是否会像AI生图一样发展呢?


或许它会是一项令人印象深刻的壮举,但不一定是摇钱树。


只有Midjourney是例外,它获得了超过2亿美元的收入。


但其他的AI图像生成器,甚至包括OpenAI的DALL-E 3,其实并没有赚多少钱。



Meta虽然拥有蓬勃发展的广告业务,但并没有试图这样做。


Sora的其他竞争对手,Pika、Stable Diffusion等等,也都没有这样做。


行业巨震,初创公司何去何从


对于AI视频初创公司来说,好消息是,OpenAI不太可能让人免费使用Sora。部分原因是,运营这项技术的成本很高。


这也就意味着,其他公司可以对自己的产品收费。


现在,它们还有机会!因为Sora在几个月内,可能都不会开放使用。


还有一个未解之谜,Sora的训练数据究竟是来自哪里的呢?


有一些行业观察人士(如Meta的AI领导者之一Soumith Chintala)推测,其中就有游戏引擎生成的合成数据。



游戏引擎可以渲染视觉效果,以前这个功能主要用于开发视频游戏。


现在,如果OpenAI能使用合成数据的话,这可能就意味着YouTube、好莱坞电影库之类的专有数据集,对于开发AI视频模型的重要性不如大多数研究者此前认为的那么重要。


这也就意味着:如果AI开发者能生成良好的合成数据,也就可以赚钱了。


往远了看,如今AI已经把人类的文本都学完了,下一步就是视频。如果视频素材也学完了,该怎么办?


有人说,那时就可以给大模型装上摄像头,因为人类世界每天需要学习的东西可太多了。


Sam Altman张口要7万亿美元,或许是OpenAI真的研究出了了不得的东西,比如即将成形的AGI。


算力、数据,手握这些资源的,就会得到第一个AGI。


参考资料:

https://the-decoder.com/openais-sora-is-slow-enough-to-grab-a-snack-while-it-generates-your-video/

https://www.bloomberg.com/news/newsletters/2024-02-22/openai-s-sora-video-generator-is-impressive-but-not-ready-for-prime-time


文章来自于微信公众号 “新智元”,作者 “新智元”


关键词: Sora , AI视频 , openai , Gemini 1.5 Pro
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0