ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Runway和Luma又打起来了,Yann LeCun炮轰:你们再牛,也不是「世界模型」
9199点击    2024-07-02 10:54

在AI 生成体操面前,「地表最强」Runway和Luma都是输家。


AI 视频界又「打」起来了! 


6 月 29 日,著名生成式 AI 平台 Runway 宣布,其最新模型 Gen-3 Alpha 向部分用户开启测试。 


同一天,Luma 推出关键帧新功能,并向所有用户免费开放使用。 


可谓是「你有张良计,我有过墙梯」,二者斗得不亦乐乎。 



这可把网友们高兴坏了,「6 月,多么美好的一个月!」 



「疯狂的 5 月、疯狂的 6 月,疯狂到根本停不下来!」 



Runway超绝镜头,干掉好莱坞


两周前,AI 视频「王者」Runway 祭出全新视频生成模型 Gen-3 Alpha 时,就预告 —— 


将在「几天内」首先向付费用户提供,免费版本也将在未来某个时间点向所有用户开放。



6 月 29 日,Runway 兑现承诺,宣布其最新推出的 Gen-3 Alpha 向部分用户开启测试。 


Gen-3 Alpha 之所以备受追捧,是因为它与上一代相比,无论在光影、质量、构图,还是文本语义还原、物理模拟、动作一致性等方面,均实现大幅度提升,就连宣传语都是「For artists,by artists(为艺术家而生,由艺术家而生)」。 



Gen-3 Alpha 效果究竟咋样?向来整花活的网友最有发言权。接下来请欣赏—— 


一个可怕的怪物从伦敦泰晤士河升起的电影镜头: 



一只悲伤的泰迪熊在哭泣,哭到伤心处还拿纸巾擤鼻涕: 



身穿华丽礼服的英国女郎,行走在古堡耸立的大街上,旁边有疾驰的车辆、缓行的马匹: 



一个巨大的蜥蜴,全身镶嵌着华丽的珠宝、珍珠,穿过茂密的植被。蜥蜴在光线下闪闪发光,画面逼真程度堪比纪录片。 


还有一只满身红蓝宝石的镶钻蛤蟆: 



夜晚的城市街道,雨水泛起霓虹灯的倒影。 


镜头从水坑中反射的灯光开始,缓缓升起,展现出那发光的霓虹广告牌,随后继续向后拉远,呈现出整条被雨水浸湿的街道。 


镜头的移动:一开始对准水坑中的倒影,接着一气呵成向上提起,向后拉开,以展现这雨夜的都市风光。 


培养皿中生长的黄色霉菌,在暗淡而神秘的灯光下,呈现出冷色调,动态感十足。 



秋天的森林中,地面被各种橙色、黄色和红色的落叶覆盖。 


轻风拂过,镜头紧贴地面向前推进,一阵旋风开始形成,将落叶卷起,形成一道螺旋。 镜头随着落叶升起,绕着旋转的落叶柱旋转 。 


从满是涂鸦的隧道的低视角开始,镜头平稳地沿着道路推进,穿过一段短而暗的隧道, 镜头在另一侧出现后迅速升高,展现出一大片五彩缤纷的野花田,周围是雪山环绕。 


一个弹钢琴的特写镜头,手指在琴键上跳跃,没有手部畸变,动作流畅,唯一的不足是,无名指上没有戒指,但影子「无中生有」。 



网友们的整活还炸出了 Runway 联合创始人 Cristóbal Valenzuela,他为自创的蜜蜂相机生成了一段视频。 


那么,这个袖珍相机长啥样呢? 



AI 再这样进化下去,好莱坞的演员们又要闹罢工了。 


Luma的关键帧新功能,画面过渡丝滑


6 月 29 日,Luma AI 推出了关键帧功能,而且大手一挥,直接向所有用户免费开放使用。 


用户只需上传起始和结束图片,并添加文字描述,Luma 就能生成具有好莱坞级别的特效视频。 


例如,X 网友 @hungrydonke 上传了两张关键帧照片: 




然后输入提示词是:A bunch of black confetti suddenly falls(突然,一堆黑色纸屑纷纷扬扬地落下来)效果如下 —— 



网友 @JonathanSolder3 先用 midjourney 生成两张图片: 




接着使用 Luma 关键帧功能生成一段超级赛亚人变身的动画。据作者介绍,Luma 不需要增强提示,只输入「超级赛亚人」即可。 


还有网友使用该功能完成每一个镜头过渡,从而将经典童话进行混搭生成一段名为《The Wolf, The Warrior, and The Wardrobe》动画。 


魔鬼变天使: 



橘子变小鸡: 



星巴克 logo 变身: 



还有网友将 20 个梗图利用 Luma 进行无缝衔接: 


AI 视频界战况如此焦灼,天晓得 Sora 怎么这么沉得住气,到现在都不露面。 


Yann LeCun「炮轰」:它们压根不懂物理


早在年初 Sora 发布时,「世界模型」一下子成了火热的概念。 


后来,谷歌的 Genie 也打出「世界模型」的旗号,这次 Runway 推出 Gen-3 Alpha 时,官方称「朝着构建通用世界模型迈出了重要一步」。 


到底啥是世界模型呢? 


其实这并没有一个标准的定义,但 AI 科学家们认为,人和动物会潜移默化地掌握世界的运作规律,从而可以「预知」接下来发生的事情并采取行动。 世界模型的研究就是让 AI 学习这种能力。 


很多人认为,Sora、Luma、Runway 等应用生成的视频相当逼真,还能按照时间顺序往后生成新的视频内容,它们似乎学会了「预知」事物发展的能力。 这与世界模型研究追求的目标不谋而合。 


不过,图灵奖得主 Yann LeCun 一直「泼冷水」。 


他认为,「根据提示产生看起来最真实的影片并不代表系统理解物理世界,生成与世界模型的因果预测有很大不同。 」 


7 月 1 日,Yann LeCun 连发 6 条帖子炮轰视频生成模型。 


他转发了一个 AI 生成体操的视频。 视频中的人物要么脑袋凭空消失,要么惊现 4 条腿,各种奇葩画面满天飞。 


Yann LeCun 称,视频生成模型并不理解基本的物理原理,更不用说人体结构了。 



「Sora 和其他视频生成模型都有类似的问题。毫无疑问,视频生成技术会随着时间的推移而变得更加先进, 但是,真正理解物理的优秀世界模型不会是生成式的。所有的鸟类和哺乳动物都比任何视频生成模型更懂物理,然而它们中没有一种能生成详细的视频。」Yann LeCun 说。 



有网友质疑: 人类不正是根据对物理的理解,在脑海中不断生成详细的「视频」吗? 


Yann LeCun 线上答疑,「我们构想的是可能发生的抽象情景,而不是生成像素图像。 这就是我想表达的观点。 」 



还有网友认为,鸟类和哺乳动物的大脑时刻在生成详细的「视频」,只是它们无法将其外化展现出来。 


Yann LeCun 反驳道: 不,它们不会。 它们只是生成可能发生的抽象情景,这和生成详细的视频有很大的区别。 



文章来源于“机器之能”



关键词: Runway , Luma , 世界模型 , AI , AI视频
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0