ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频,质量更高训练成本更低
7787点击    2024-06-20 10:03

16秒720p高清视频,现在人人可免费一键生成!


无论是精致的人物肖像:



还是炫酷的科幻大片:


画质已压缩


亦或是生动有趣的动画:



流畅的变焦效果:


画质已压缩


以上生成效果,全部来自免费开源的潞晨Open-Sora


从3月发布以来,潞晨Open-Sora一直热度不减,GitHub上揽星已经17.5K


(GitHub:https://github.com/hpcaitech/Open-Sora)



英伟达入股的AI公司Lambda Labs,也基于潞晨Open-Sora模型权重打造了数字乐高宇宙。



而在公布模型权重和训练细节后,潞晨Open-Sora还在持续开源中。


最近,其幕后团队在GitHub上晒出了技术路线,进一步披露了最新版本模型的训练核心内容报告地址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md。


具体细节,一起来看。



训练成本再降低


最新版本的潞晨Open-Sora在此前基础上引入了视频压缩网络(Video Compression Network)、更优扩散模型算法、更多的可控性,并利用更多数据训练出了1.1B扩散生成模型。


能在保障模型输出质量的同时,降低计算资源的消耗


其中,引入视频压缩网络是OpenAI的Sora同款方法。它能在时间维度上进行4倍压缩,无需抽帧,可以使用原始FPS生成视频。


考虑到训练一个3D VAE的成本太高,团队尝试让模型重新利用在2D VAE中学习到的知识。在2D VAE压缩后,时间维度上的相邻特征仍然高度相关。


因此团队提出了一个简单的视频压缩网络(即VAE),它能首先在空间维度上实现8x8倍的压缩,再从时间维度上压缩4倍


该网络框架如下:



具体训练过程分为三步:


1、前380K步,在8个GPU上训练,冻结2D VAE的权重,只训练3D VAE部分,即对时间维度的压缩重建。训练目标为对2D VAE encoder输出的特征进行时间维度的压缩重建,并添加一个identity loss使得新训练的3D VAE输出的特征尽可能和原始2D VAE的特征相似。团队发现加上这种identity loss可以很快让整个VAE达到良好的压缩重建性能,并在下一阶段收敛速度快很多。


2、接下来的260K步,移除掉identity loss,继续单独训练3D VAE部分。


3、最后540K步,由于发现只重建2D VAE特征并不能进一步提升性能,所以解冻了2D VAE权重,开始训练整个VAE模型来重建原始视频。该阶段在24个GPU上完成。


其中前两个阶段的训练数据使用20%图像和80%视频,视频用17帧进行训练;最后一个阶段用34帧的随机帧数视频进行训练,使VAE模型可以压缩任意长度的视频。训练和推理的代码已开源。


Rectified flow和模型适配


另外,基于最新Stable Diffusion 3的开源成果,提供了一套完整的训练解决方案。


Stable Diffusion 3通过采用了rectified flow技术替代 DDPM,显著提升了图片和视频生成的质量。


潞晨Open-Sora团队带来的技术包括:


  • 简单易用的整流(rectified flow)训练


  • 用于训练加速的 Logit-norm 时间步长采样


  • 基于分辨率和视频长度的时间步长采样


通过这些技术的整合,不仅能够加快模型的训练速度,还能显著减少推理阶段的等待时间,确保用户体验的流畅性。


此外,这套训练方案还支持在推理过程中输出多种视频宽高比,满足了多样化场景下的视频素材需求,为视频内容创作者提供了更加丰富的创作工具.


此外,技术报告中还透露了更多模型训练的核心细节,包括数据清洗和调优的使用技巧。同时团队构建了更完善的模型评估体系,保障模型的稳健性和泛化能力。


通过提供可自行一键部署的Gradio应用,并支持调节输出的运动分数、美学分数和镜头移动方式等参数,还能一键通过GPT-4o 自动修改指令并支持中文输入。



传送门


文生视频爆火后,潞晨Open-Sora持续开源为该领域发展做出了贡献。


潞晨Open-Sora可零门槛免费获得模型权重、全套训练代码,沉浸式游戏、创意广告、制作影视大片……都能来试试~



最后,想要了解潞晨Open-Sora更多详情,可访问GitHub主页:


https://github.com/hpcaitech/Open-Sora


参考链接:

[1] https://wandb.ai/lambdalabs/lego/reports/Text2Bricks-Fine-tuning-Open-Sora-in-1-000-GPU-Hours—Vmlldzo4MDE3MTky

[2] https://hpc-ai.com/blog/open-sora-from-hpc-ai-tech-team-continues-open-source-generate-any-16-second-720p-hd-video-with-one-click-model-weights-ready-to-use


文章来自于微信公众号 “量子位”,作者 “允中”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/