ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
给我一张脸,视频背景随你换,林黛玉都被清华理工男玩废了|免费开放
5845点击    2024-09-11 13:32

让AI视频中任意主体保持一致!就在刚刚,人人都可轻松做到了。




而且只需一张图片,就能实现。


——上面的每一个马斯克视频,都来自同一张照片。



想玩的话,只需要用上清华系AI视频玩家生数科技旗下Vidu的最新功能,主体参照(Subject Consistency)


该功能能够实现对任意主体的一致性生成,让视频生成更加稳定,也更加可控。



“现在生成AI视频内容,想要做到‘言出法随’其实还很难,不确定性让视频内容对运镜、光效等的精细控制还是得不断抽卡。”生数科技CEO唐家渝表示,“角色一致性只能让人脸保持一致,而主体参照让主体整体造型都能保持一致,给了更大的创作空间。”


这是继今年7月,生数Vidu面向全球用户上线文生视频与图生视频能力(单视频最长生成8s)后的再次更新。


这次功能上新依然非常友好:


面向用户免费开放,注册即可体验。


仅需一张图片实现主体可控


先来看看Vidu是怎么定义这个新功能的。


主体参照:允许用户上传任意主体的一张图片,然后由Vidu够锁定该主体形象,通过描述词任意切换场景,输出主体一致的视频。


划重点:任意主体


也就是说,无论是人还是动物,无论是真人还是动漫形象or虚构主体,无论是家具还是商品,都能通过这个功能在视频生成中实现一致性和可控性。


目前,所有的视频大模型中,仅有Vidu率先支持这种玩法。


不必光说不练,我们来看看真实效果。


人物主体


首先来看看以人物为主体。


上传一张87版《红楼梦》林妹妹的定妆照:



以画面中林妹妹为主体,利用主体参照功能,生成两条视频。


突然,林妹妹上台演讲了:



又一眨眼,妹妹已经坐在星爸爸喝咖啡了:



当然啦,真人可以作为生成视频的主体参照,虚拟角色/动漫人物同样可以。


比如输入一张漫画女孩:



生成视频效果是酱紫的:



这里附上一些官方给的小tips:


  • 如需重点保持主体面容一致,需仅截取单一主体的清晰面容图
  • 如需重点保持主体半身一致(面容+上半身服饰),仅需截取单一主体的清晰半身图
  • 如需重点保持主体全身一致(全身特征),仅需截取单一主体的清晰全身图


动物主体


谁能不爱可爱狗狗!



把这张照片丢给Vidu,就能实现狗狗走草地上,一步一步靠近你。


镜头后拉和主体运动幅度表现都还不错。



商品主体


当把商品作为需要参照的主体时,在生成的视频中,商品外观和细节能在不同于图片的场景中保持一致。


就像下面这样:



沙发所在的场景,说变就变。


上面还能睡一个盖了毯子的小女孩,遮挡住沙发原有部分。



需要注意的是,当前版本仅支持单一主体的可控。


如果上传的图片有多个人物/物体,需要框选出单一主体进行生成。


Be Like:



不再“两步走”了


无论是制作短视频、动画作品还是广告片,“主体一致、场景一致、风格一致”都是共同的追求。


因此,AI视频生成内容想要有叙事效果,就需要不断往三个一致方面尽力靠拢。


尤其是就现实情况而言,实际的视频创作,内容往往围绕特定的对象展开——这往往也是视频生成内容最容易变形、崩坏的一点,尤其在涉及复杂动作和交互的情况下。


挠头,脑阔痛。


业界首先想到的办法是先AI生图、再图生视频。


说人话,就是用Midjourney、SD什么的,生成分镜镜头画面,让每张图里的主体保持一致,然后再进行图生视频,最后把每个视频片段拼接剪辑。


但一听就发现了,这样搞,无论是保持AI画图的一致性,还是后期拼拼剪剪,工作量都很大。


生数Vidu“主体参照”跟这个思路的不一样之处,就是不再两步走了。


而是通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。


最后,我们来厘清以及区分三个概念:


  • 图生视频(Image to Video)
  • 角色一致性(Character to Video)
  • 主体参照(Subject Consistency)


图生视频基本是现在AI视频生成的基操了。


它把输入的图片作为视频首帧,然后基于首帧画面的连续生成。


Bug是无法直接输出目标场景,限制了视频内容的多样性和场景的自由度。


角色一致性,主要集中在人物形象上起效果。


它能保证人物面部特征在动态视频中保持一致,但一般来说“一致性”只顾脸,不顾整体形象。


主体参照,面向任意主体。


同时在面向人物主体时,既可选择保持面部一致,也可选择保持人物整体形象的高度一致。


最后附上生数科技视频试玩链接,感兴趣的朋友可趁排队人不多,赶紧冲一波!


毕竟,免费的就是香,对吧(doge)


体验直通车:


www.vidu.studio


文章来源“量子位”,作者“衡宇”


关键词: AI , AI视频 , Vidu , 生数科技
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT