ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
2490点击    2023-11-23 11:22

Stable Diffusion官方终于对视频下手了——


发布生成式视频模型Stable Video Diffusion(SVD)



Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成:



并且还支持物体从单一视角到多视角的转化,也就是3D合成



根据外部评估,官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。


虽然目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于Stable Diffusion的生态系统”。


目前论文代码权重已上线。



最近视频生成领域不断出现新玩法,这次轮到Stable Diffusion下场,以至于网友们的第一反应就是“快”,进步太快!



但仅从Demo效果来说,更多网友们表示并没有感到很惊喜。


虽然我喜欢SD,而且这些Demo也很棒……但也存在一些缺陷,光影不对、而且整体不连贯(视频帧与帧之间闪烁)



总归来说这是个开始,网友对SVD的3D合成功能还满是看好:


我敢打赌,很快就会有更好的东西出来,到时候只要描述一下,就会得到一个完整的3D场景。



SD视频官方版来袭


除了上面展示的,官方还发布了更多Demo,先来看一波:



太空漫步也安排上:


背景不动,只让两只鸟动也可以:



SVD的研究论文目前也已发布,据介绍SVD基于Stable Diffusion 2.1,用约6亿个样本的视频数据集预训练了基础模型。


可轻松适应各种下游任务,包括通过对多视图数据集进行微调从单个图像进行多视图合成。


微调后,官方公布的是两种图像到视频模型,可以以每秒3到30帧之间的自定义帧速率生成14(SVD)和25帧(SVD-XT)的视频:



之后又微调了多视角视频生成模型,叫做SVD-MV:



根据测试结果,在GSO数据集上,SVD-MV得分优于多视角生成模型Zero123、Zero123XL、SyncDreamer:



值得一提的是,Stability AI表示SVD目前仅限于研究,不适用于实际或商业应用。SVD目前也不是所有人都可以使用,但已开放用户候补名单注册。


视频生成大爆发


最近视频生成领域呈现出一种“混战”的局面。


前有PikaLabs开发的文生视频AI:



后又有号称“史上最强大的视频生成AIMoonvalley推出:



最近Gen-2的“运动笔刷”功能也正式上线,指哪画哪:



这不现在SVD又出现了,又有要卷3D视频生成的可能。


但文本到3D生成方面好像还没有太多进展,网友对这一现象也很是困惑。



有人认为数据是阻碍发展的瓶颈:



还有网友表示原因在于强化学习还不够强:





论文链接:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf


参考链接:


[1]https://stability.ai/news/stable-video-diffusion-open-ai-video-model

[2]https://news.ycombinator.com/item?id=38368287



文章来自微信公众号 “ 量子位 ”,作者 西风




AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner