ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜
4846点击    2024-01-11 15:04

一句话,就让绿巨人戴上VR眼镜。


4K画质那种。



熊猫的奇幻漂流~



这是字节最新的AI视频生成模型MagicVideo-V2,各种奇思妙想的想法都能实现。它不仅支持4K、8K超高分辨率,轻松hold各种绘图风格。



从左往右:油画风、赛博风、设计风


测评效果超过Gen-2、Pika以及现有AI视频生成工具。


结果上线不到24小时就引发众人围观,比如一条推文就有近20万浏览量。


不少网友惊讶其效果,甚至直言:比runway和pika还要好



“比runway和pika还要好”


研究人员也的确进行了实际的效果比较。选手分别为:MagicVideo-V2、StabilityAI的SVD-XT,新潜力玩家Pika1.0,以及Runway的Gen-2


第一轮:光影效果


夕阳西下,旅行者独自行走在迷雾森林中。


(从左到右依次是:MagicVideo-V2、SVD-XT,右上Pika,右下Gen-2,下同)


可以看到,MagicVideo-V2、Gen-2和Pika都有明显的光影。不过Pika看不出是为旅行者,MagicVideo-V2的色调更为丰富。


第二轮:情境剧情的表达。


1910 年代的情景喜剧,讲述社会中的日常生活和琐事


这一轮明显也是MagicVideo-V2、Gen-2更胜一筹。SVD-XT呈现的中景构图,虽然年代体现出来了,但表达不够。


第三轮:写实。


小男孩在公园的小路上骑着自行车,车轮踩在碎石上发出嘎吱嘎吱的声音.


这次对比就更为明显了。MagicVideo-V2和SVD-XT是完整体现出句子意思的,不过MagicVideo-V2可以看到小孩明显脚在动的细节。


除此之外,研究人员还将MagicVideo-V2与当下最先方法进行一对一的人类评估。



结果显示,相较于其他方法,人们认为MagicVideo-V2的效果更好。



(绿色、灰色和粉色条分别代表 MagicVideo-V2 被评价为更好、相当或较差的试验效果。)


如何实现?


简单来说,MagicVideo-V2是一条视频生成流水线,集成了文本到图像模型、视频运动生成器、参考图像嵌入模块、插值模块。



首先是有T2I模块首先根据文字生成1024×1024图像,随后I2V模块对该静态图像进行动画处理,生成600×600×32的帧序列,然后再用V2V模块增强,并完善视频内容,最后再用插值模块将序列扩展到94个帧。


这样一来,既保证了高保真,时间上也有连续性。


不过早在2022年11月字节曾推出了MagicVideo V1版。



不过,当时更强调的是高效性,它能在单个GPU卡上生成256x256分辨率的视频。


参考链接:

https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20


项目链接:

https://magicvideov2.github.io/


论文链接:

https://arxiv.org/abs/2401.04468

https://arxiv.org/abs/2211.11018


文章来自于微信公众号“量子位”(ID: QbitAI),作者 “白交”