在众多前沿成果都不再透露技术细节之际,Stable Diffusion 3 论文的发布显得相当珍贵。
在众多前沿成果都不再透露技术细节之际,Stable Diffusion 3 论文的发布显得相当珍贵。
Stability AI放出了号称能暴打闭源模型的Stable Diffusion 3的技术报告,采用DiT构架的新模型在灵活性和性能上都达到了新的高度。
在2024年2月份,OpenAI推出了一项创新的文本转视频模型,名为Sora。这一模型标志着视频生成技术取得了显著的进步。Sora具备将简短文本描述转化为长达一分钟的详尽且高清晰度视频片段的能力。
北大团队联合兔展发起了一项Sora复现计划——Open Sora。
自曝996作息的OpenAI研究员Jason Wei表示,Sora代表着视频生成的GPT-2时刻。竞争的关键,就是算力和数据了。国内有可能成功「复刻」Sora吗?华人团队的这份37页技术报告,或许能给我们一些启发。
有了阿里的 EMO,AI 生成或真实的图像「动起来说话或唱歌」变得更容易了。
根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Transformer 和扩散模型结合,展现了卓越的扩展(scale)特性。
Sora颠覆影视业,现在来看还远。Bloomberg记者亲自试用后发现,Sora生成的视频还是翻车严重。而且,它的速度太太太太慢了!不过尽管如此,OpenAI已经创死了一片初创公司。
Sora一出,让很多人心生恐惧:饭碗彻底被砸了!这位亚马逊工程师却告诉我们:真的不必担心生成式AI会抢人类的饭碗,顶多担心一下你的人类同行吧。
世界模型是什么?Sora是世界模型吗?