根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Transformer 和扩散模型结合,展现了卓越的扩展(scale)特性。
来自主题: AI技术研报
5834 点击 2024-02-29 13:35
根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Transformer 和扩散模型结合,展现了卓越的扩展(scale)特性。
这两天,Sora横空出世让字节也跟着上了热搜。有传言称,字节跳动在Sora引爆文生视频赛道之前,已经研发“中文版Sora”:一款名为Boximator的创新性视频模型。紧接着,字节快速辟谣,积极否认。
谷歌Research Lead,负责VideoPoet项目的蒋路,即将加入TikTok,负责视频生成AI的开发。
OpenAI发布了首个AI视频模型Sora,该模型能够根据文字指令生成逼真且充满想象力的视频,且能够生成长达1分钟的连贯视频。通过提供多帧预测,Sora实现了一镜到底的效果。
谷歌全新视频生成模型VideoPoet再次引领世界!十秒超长视频生成效果碾压Gen-2,还可进行音频生成,风格转化。