ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
速来!潞晨Open-Sora羊毛可薅,10元轻松上手视频生成
8006点击    2024-07-01 14:18

最近 Open-Sora 全新开源的 1.2 版本,可以生成最长 16s 的 720p 高清视频,官方视频效果如下:



这个生成的效果确实惊艳,也难怪后台那么多读者想要上手体验。


对比一众闭源软件,需要排长队等候内测资格,这个完全开源的 Open-Sora 显然更加易得。但是,在 Open-Sora 的官方 Github 上,密密麻麻全是技术和代码,要想自己部署体验,且不说模型对硬件要求高,配置环境时对使用者的代码功底也是不小的挑战。


那么有没有什么办法,让 AI 小白用户也能轻松使用 Open-Sora 呢?


先上结论:有,而且可以一键部署,启动后还能零代码控制视频长度、画幅、镜头等参数。


心动了吗?那就让我们一起看看,要如何实现 Open-Sora 的部署。文末有保姆级的详细教程和使用地址,无需任何技术背景就能操作。


基于 Gradio 的可视化方案


有关 Open-Sora 的最新技术细节,我们曾经做过一篇深度报道。在报道中,我们重点讨论了 OpenSora 模型的核心架构和其创新的视频压缩网络(VAE)。在那篇文章末尾,我们提到,潞晨 Open-Sora 团队提供了可以自行一键部署的 Gradio 应用。那么,这个 Gradio 应用具体是什么样呢?


Gradio 本身是一个 Python 包,专为机器学习模型的快速部署而设计。它允许开发者通过定义模型的输入和输出,自动生成一个网页界面,从而简化了模型的在线展示和交互过程。


我们仔细阅读了 Open-Sora 的 GitHub 首页,发现该应用将 Open-Sora 模型与 Gradio 有机地结合起来,提供了一个优雅简洁的交互方案。



它采用图像界面,使操作更简单。在界面中,用户可以自由修改生成视频的时长、长宽比和分辨率等基础参数,同时还能自主调节生成视频的运动幅度、美学分数和更高级的镜头移动方式。它还支持调用 GPT-4 对 prompt 进行优化,因此,可以同时支持中文和英文文本输入。


在部署好该应用后,用户在使用 Open-Sora 模型时则不需要编写任何代码,只需要输入 prompt 和点击替换参数,即可尝试不同的参数组合生成视频。生成的视频也将直接展示在 Gradio 界面中,可以直接在网页端下载,无需配备复杂的路径。



图片来源:https://github.com/hpcaitech/Open-Sora/blob/main/assets/readme/gradio_basic.png


我们注意到,潞晨 Open-Sora 团队已经在 Github 中提供了将模型与 Gradio 适配的脚本,并且也提供了部署的命令行代码。然而,我们仍需要经历复杂的环境配置,才能成功运行部署代码。如果我们想完整体验 Open-Sora 的功能,尤其是生成长时间高分辨率(比如 720P 16 秒)的视频,更是需要性能好显存大的显卡(官方使用的是 H800)。Gradio 方案似乎没有提到如何解决这两个问题。


这两个问题乍看十分棘手,却能被潞晨云完美地解决,真正实现了无需技术轻松部署。如何上手?机器之心这里有一份超简单的教程。


超简单的一键部署教程


在潞晨云上部署 Open-Sora 有多简单呢?


首先,潞晨云提供多类型的显卡,其中,A800 和 H800 这样的高端显卡也可以轻松租到。经我们测试,这种 80GB 显存的卡,单卡就可以满足 Open-Sora 项目的推理需求。


其次,潞晨云为 Open-Sora 项目配备了专属镜像。这个镜像就像可以拎包入住的精装房,全套运行环境可以一键启动,省去了复杂的环境配置环节。


最后,潞晨云还有超优惠的价格和超人性化的服务。一张 A800 的卡每小时价格不到 10 元,初始化镜像的时间全部不计费,云主机随时关机停止计费。换句话说,不到 10 元 / 时,即可充分享受 Open-Sora 带来的惊喜体验!除此之外,我们还放了一个 100 元优惠券的获取方式在文末,赶紧注册账号薅上券,跟着我们的教程开整吧!



潞晨云网址:https://cloud.luchentech.com/


首先,进入网址在潞晨云上注册账号。一进入主页面,就可以直接看到算力市场的可租赁机器。领上优惠券,或者充值 10 元钱,就能跟着潞晨云的用户指南,开始建立云主机。


第一步是选择镜像。一打开公共镜像,点开第一个就是 OpenSora (1.2),真是方便至极。



第二步是选择计费方式。计费方式有两种,潮汐计费和按量计费。我们试用后发现潮汐计费更省钱,在空闲时段 A800 的价格还能更低!




对于 Open-Sora 的推理,一张 A800 足够了,我们选择了 1 卡配置,并且允许了 SSH 连接、存储持久化,还挂载了公开数据(包括模型权重)。这些功能都不额外收费,还能提供更多便利,超级良心。


选好后点击创建,云主机启动的时间非常短,几十秒内机器就起来了。这段时间是不计费的,所以如果遇到比较大的镜像等待时间较长时也不必担心费用问题。



第三步,我们从云主机页面点击 JupyerLab, 进入网页。一进去就给我们打开了一个终端。


我们输入 ls,查看云主机的文件,可以看到 Open-Sora 这个文件夹就在初始路径处。



由于我们使用的是 Open-Sora 专属镜像,我们无需额外安装任何环境。最耗时的这一步被完美地解决了。



这时候,我们直接输入运行 Gradio 的命令,就可以快速启动 Gradio,真正实现了一键部署。


Bash
python gradio/app.py

速度非常快,只要十多秒,Gradio 就跑起来了。


不过,我们发现,这个 gradio 是默认在服务器的 http://0.0.0.0:7860 上跑,要想在自己本地的浏览器用,得先把自己的 ssh 公共秘钥加入到潞晨云的机器中。这一步也很简单,只要进入下面这个文件,粘贴本地机器的秘钥进去就行。



接着,我们还需要写上本地完成端口映射指令,我们可以照着这个截屏中的指令来写,大家使用的时候需要替换成自己云主机的具体地址和 port。



接着,打开对应网页,很快就出现了可视化操作界面。



我们先随意输入了一个英文提示,点击开始生成 (用了默认的 480p,速度会快一些)。



a river flowing through a rich landscape of trees and mountains (一条河流流经茂密的树木和山脉)


很快生成就完成了,耗时约 40 秒。生成结果整体还不错,有河有山有树木,和指令符合。但是我们期待的是雄鹰从高处俯瞰的效果。


没关系,调整了指令再来一次:


a bird's eye view of a river flowing through a rich landscape of trees and mountains (鸟瞰河流流经树木和山脉的丰富景观)


这次生成的内容果然带上了鸟瞰效果。不错,这个模型还是很听话的。



如前文所说,gradio 界面上还有很多其他选项,比如调整分辨率、画幅长宽比、视频时长,甚至还能控制视频的动态效果幅度等,可玩性非常强,我们测试时使用的是 480P 分辨率,而最高可支持 720P,大家可以逐个尝试,看看不同选项搭配的效果。


想要进阶?微调也能轻松上手


此外,继续深挖 Open-Sora 的网页,我们发现他们还提供了继续微调模型的代码指令。使用自己喜欢的类型的视频微调模型的话,就能让这个模型生成更符合我的审美要求的视频了!



让我们用潞晨云的公开数据中提供的视频数据来验证一下。



由于环境全都是配置好的,我们只需复制粘贴训练指令。


torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv

这边输出了一连串模型训练的信息。



训练已经正常启动了,居然只要单卡就能训!


( 踩坑提示:在此之前我们遭遇了一次 OOM, 结果发现程序挂了以后显存依旧被占用,然后发现是忘记关闭上一步 Gradio 的推理了 ORZ,所以大家用单卡训的时候一定要记得关掉 Gradio,因为 Gradio 上面加载了模型一直在等待用户输入来进行推理)。



以下是我们训练的时候 GPU 资源占用情况:



简单算一笔账,训练一步大约耗时约 20 秒,根据 Open-Sora 提供的数据,训练 70k 步(如下图所示),那他们耗时大约在 16 天左右,和他们文档中声称的 2 周左右相近(假设他们的所有机器各完成一个 step 的时间和我们这台机器相似)。



在这 70k 步中,第一阶段占 30k 步,第二阶段占 23k 步,那第三阶段其实只训练了 17k 步。而这个第三阶段,就是用高质量视频进行微调,用来大幅度提升模型质量,也就是我们现在想要做的事情。



不过,从报告中看,他们的训练使用了 12 台 8 卡机器,所以如果我们用潞晨云平台训练和第三阶段相同的数据量,大约需要:


95 小时 * 8 卡 * 12 台 * 10 元 / 小时 = 91200 元

这个数字对于测评来说还是有点门槛的,但是对于打造一个专属的文生视频大模型来说也太划算了。尤其是对于企业来说,基本不需要什么前期准备工作,按照教程一步步走,就可以用不到十万块的价格甚至更少完成一次微调。真的很期待能看到更多 Open-Sora 在专业领域的强化版!


最后,放上我们前面提到的 100 元优惠券福利活动~尽管我们本次测评成本不到 10 元,但是羊毛该薅还得薅!


从潞晨云官方资料看到,用户在社交媒体和专业论坛(如知乎、小红书、微博、CSDN 等)上分享使用体验(带 #潞晨云或 @潞晨科技),有效分享一次可得 100 元代金券(有效期一周),换算成我们测评时生成的这种视频,相当于五六百个~



最后,我们整理了相关的资源链接放在下面,方便大家快速上手。想要立刻尝试的小伙伴们,点击阅读原文即可一键传送,开启你的 AI 视频旅程!


文章来源于“机器之心”




关键词: Open-Sora , AI视频 , AI , 潞晨云
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0