腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频
6099点击    2024-12-20 10:05

提速8倍!


速度更快、效果更好的混元视频模型——FastHunyuan来了!


新模型仅用1分钟就能生成5秒长的视频,比之前提速8倍,步骤也从50步减少到了6步,甚至画面细节也更逼真了。


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


和普通速度的混元对比一下,原来50步才能生成1条视频,而现在新模型在相同的时间里可以生成8条


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


再来看看和Sora的画面对比,可以看到Fast-Hunyuan和Sora两者的效果都更逼真一些,衣服、水果和山峰的细节也非常清晰。


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


甚至在一些物理细节的理解上,Fast-Hunyuan比Sora还强,比如下面拿取柠檬的视频:


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


更重要的是,Fast-Hunyuan的代码也开源了,这下不用为Sora的订阅费和限额发愁了。


研究团队来自加州大学圣地亚哥分校(UCSD)Hao AI实验室,他们主要专注机器学习算法和分布式系统的研究。


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


混元官方账号还特意发博感谢了他们:


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


有网友看完后直呼,混元才是最好的开源视频模型。


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


开创性的视频DiT蒸馏配方


团队是如何做到8倍提速的情况下还能提升视频清晰度呢?


下面就一起来看一下Fast-Hunyuan的技术原理——


首先,他们开发了全新的视频DiT蒸馏配方


具体来说,他们的蒸馏配方基于阶段一致性(Phased Consistency Model, PCM)模型


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


在尝试使用多阶段蒸馏后发现效果没有显著改进,最终他们选择保持单阶段设置,与原始PCM模型的配置相似。


其次,团队使用了OpenSoraPlan中的MixKit数据集进行了蒸馏。


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


为了避免在训练过程中运行文本编码器和VAE,团队还预处理了所有数据,用来生成文本嵌入和VAE潜在变量。


在推理阶段,用户可以通过FSDP、序列并行和选择性激活检查点进行可扩展训练,模型可以近乎线性扩展到64个GPU。测试代码在Python 3.10.0、CUDA 12.1和H100上运行。


官方推荐使用80GB内存的GPU,不同模型有相应的下载权重和推理命令。


最低硬件要求如下:


  • 40 GB GPU 内存,每个 GPU 配备 lora


  • 30 GB GPU 内存,每 2 个 GPU 配备 CPU 卸载和 LoRa。


在模型微调方面,Fast-Hunyuan提供了全微调(需准备符合格式的数据,提供了一些可下载的预处理数据及对应命令)和LoRA 微调(即将上线)两种方式。


此外,他们还结合了预计算潜变量预计算文本嵌入,用户可以根据自己的硬件条件选择不同的微调方式来执行命令,也支持图像和视频的混合微调


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


模型已于2024年12月17日发布了v0.1版本。


未来的开发计划还包括添加更多蒸馏方法(如分布匹配蒸馏)、支持更多模型(如CogvideoX模型)以及代码更新(如fp8支持、更快的加载和保存模型支持)等等。


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


One More Thing


除了加速模型,混元还预告了大家都非常期待的图像到视频生成功能。


最快1月份,也就是下个月就可以看到!期待住了。


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频


GitHub:https://github.com/hao-ai-lab/FastVideo


HuggingFace:https://huggingface.co/FastVideo/FastHunyuan


参考链接:


[1]https://x.com/TXhunyuan/status/1869282002786292097


文章来自微信公众号“量子位”,作者“奇月”


腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner