Open-Sora全面开源升级：支持16s视频生成和720p分辨率

8142点击 2024-04-25 18:37

Open-Sora 在开源社区悄悄更新了，现在单镜头支持长达16秒的视频生成，分辨率最高可达720p，并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。

生成个横屏圣诞雪景，发b站

再生成个竖屏，发抖音

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

还能生成单镜头16秒的长视频，这下人人都能过把编剧瘾了

怎么玩？指路

GitHub：https://github.com/hpcaitech/Open-Sora

更酷的是，Open-Sora 依旧全部开源，包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例和详尽的上手教程。

Open-Sora 技术报告全面解读

支持多时间/分辨率/长宽比/帧率训练

OpenAI Sora的技术报告[3]指出，使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性，改善帧和构图。对此，作者团队提出了分桶的策略。

具体怎么实现呢？通过深入阅读作者发布的技术报告，我们了解到，所谓的桶，是（分辨率，帧数，长宽比）的三元组。团队为不同分辨率的视频预定义了一系列宽高比，以覆盖大多数常见的视频宽高比类型。在每个训练周期epoch开始之前，他们会对数据集进行重新洗牌，并将样本根据其特征分配到相应的桶中。具体来说，他们会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

作者团队进一步透露，为了降低计算资源的要求，他们为每个keep_prob和batch_size引入两个属性（分辨率，帧数），以减少计算成本并实现多阶段训练。这样，他们可以控制不同桶中的样本数量，并通过为每个桶搜索良好的批大小来平衡GPU负载。作者在技术报告中对此进行了详尽的阐述，感兴趣的小伙伴可以阅读作者在GitHub上发布的技术报告来获取更多的信息：https://github.com/hpcaitech/Open-Sora

数据收集和预处理流程

作者团队甚至对数据收集与处理环节也提供了详尽的指南。根据作者在技术报告中的阐述，在Open-Sora 1.0的开发过程中，他们意识到数据的数量和质量对于培育一个高效能模型极为关键，因此他们致力于扩充和优化数据集。他们建立了一个自动化的数据处理流程，该流程遵循奇异值分解（SVD）原则，涵盖了场景分割、字幕处理、多样化评分与筛选，以及数据集的管理系统和规范。同样，他们也将数据处理的相关脚本无私地分享至开源社区。对此感兴趣的开发者现在可以利用这些资源，结合技术报告和代码，来高效地处理和优化自己的数据集。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

Open-Sora 性能全方位评测

视频生成效果展示

Open-Sora 最令人瞩目的亮点在于，它能够将你脑中的景象，通过文字描述的方式，捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象，现在得以被永久地记录下来，并与他人分享。在这里，笔者尝试了几种不同的prompt，作为抛砖引玉。

比如，笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久，松树上挂满了皑皑白雪，暗色的松针和洁白的雪花错落有致，层次分明。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

又或者，在一个静谧夜晚中，你身处像无数童话里描绘过黑暗的森林，幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

在空中俯瞰繁华岛屿的夜景则更是美丽，温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

城市里的车水马龙，深夜依然亮着灯的高楼大厦和街边小店，又有另一番风味。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

除了风景之外，Open-Sora 还能还原各种自然生物。无论是红艳艳的小花，

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

还是慢悠悠扭头的变色龙， Open-Sora 都能生成较为真实的视频。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

笔者还尝试了多种 prompt 测试，还提供了许多生成的视频供大家参考，包括不同内容，不同分辨率，不同长宽比，不同时长。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

笔者还发现，仅需一个简洁的指令，Open-Sora便能生成多分辨率的视频短片，彻底打破创作限制。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

我们还可以喂给Open-Sora一张静态图片让它生成短片

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

Open-Sora 还可以将两个静态图巧妙地连接起来，轻触下方视频，将带您体验从下午至黄昏的光影变幻，每一帧都是时间的诗篇。

再比如说我们要对原有视频进行编辑，仅需一个简单的指令，原本明媚的森林便迎来了一场鹅毛大雪。

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

我们也能让Open-Sora 生成高清的图片

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

值得注意的是，Open-Sora的模型权重已经完全免费公开在他们的开源社区上，不妨下载下来试一下。由于他们还支持视频拼接功能，这意味着你完全有机会免费创作出一段带有故事性的小短片，将你的创意带入现实。

权重下载地址：https://github.com/hpcaitech/Open-Sora

当前局限与未来计划

尽管在复现类Sora文生视频模型的工作方面取得了不错的进展，但作者团队也谦逊地指出，当前生成的视频在多个方面仍有待改进：包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战，作者团队表示，他们将在下一版本的开发中优先解决，以期望达到更高的视频生成标准，感兴趣的朋友不妨持续关注一下。我们期待Open-Sora社区带给我们的下一次惊喜。

开源地址：https://github.com/hpcaitech/Open-Sora

本文来自微信公众号“机器之心”

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

关键词: Open-Sora , sora , AI视频 , 扩散模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

Open-Sora 技术报告全面解读

最新功能概览

支持多时间/分辨率/长宽比/帧率训练

数据收集和预处理流程

视频生成效果展示

当前局限与未来计划