
拆解OpenAI技术报告:Sora是怎么生成视频的?
拆解OpenAI技术报告:Sora是怎么生成视频的?Sora面对的挑战就像是需要处理和理解来自世界各地、不同设备拍摄的数以百万计的图片和视频。这些视觉数据在分辨率、宽高比、色彩深度等方面都存在差异。为了让Sora能够像人类大脑那样理解和生成这么丰富的视觉内容,OpenAI开发了一套将这些不同类型视觉数据转换为统一表示形式的方法。
Sora面对的挑战就像是需要处理和理解来自世界各地、不同设备拍摄的数以百万计的图片和视频。这些视觉数据在分辨率、宽高比、色彩深度等方面都存在差异。为了让Sora能够像人类大脑那样理解和生成这么丰富的视觉内容,OpenAI开发了一套将这些不同类型视觉数据转换为统一表示形式的方法。
太热闹了。Google发布Gemini1.5的时候,被OpenAI的Sora截胡抢了风头。这些天,铺天盖地都是“Sora又让人类完了”的新闻。
当我们还在困扰为什么国内大模型没有GPT4好用的时候,Sora来了。这潜在意味着从AGI视角看,追赶一年后差距似乎并没有缩小反倒是被拉大了。
谷歌Research Lead,负责VideoPoet项目的蒋路,即将加入TikTok,负责视频生成AI的开发。
为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。
各大社区迅速充满了ChatGPT用户们的“????”“它中风了?”
2023年,AI成了科技圈的热词,新老玩家云集。到了2024年,其热度持续飙升。首先是OpenAI创始人山姆·奥特曼欲为AI芯片项目寻求5-7万亿美元的资金,随后,OpenAI推出了一款视频生成模型“Sora”,引发全球大讨论。
2月16日,OpenAI发布了文生视频AI模型Sora,引爆全球网络。Sora毫无悬念地促生了好莱坞的焦虑感,也让人工智能著作权归属问题再次引发法学界、产业界的高度关注。
OpenAI发布的新AI模型Sora带来的全球震动还没几天,但朋友圈里卖课的“老师们”已经闻风而动,疯狂推销起来了,言之凿凿地声称:
生成60秒逼真视频,只是未来的一个小功能,母模型根科技原力觉醒。来自未来实验室的首席专家胡延平就爆火Sora模型做出了深度的个人解读。