ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Vidu发布「主体参照」功能,有效解决视频生成一致性问题
7858点击    2024-09-12 10:16

7 月份正式上线的国产视频大模型 Vidu,在今天发布大版本更新。


在今天的生树科技媒体开放日上,Vidu 发布了「主体参照」(Subject Consistency)功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。



目前该功能面向用户免费开放,注册即可体验!

(体验地址: www.vidu.studio)


01 

一张图片实现主体可控,

全球首个!


所谓「主体参照」,就是允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。


该功能不局限于单一对象,而是面向「任意主体」,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性,这是视频生成领域的一大创新。Vidu 也是全球首个支持该能力的视频大模型。


  • 人物角色的「主体参照」,无论是真实人物还是虚构角色,Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。


  • 动物,Vidu 可以实现其在不同环境下、大幅运动状态中细节特征保持一致。


  • 商品,商品的外观和细节在不同场景中保持高度一致。


上传的主体也不限于写实风格,比如针对动漫角色或者虚构的主体等,Vidu 也可以保持其高度一致。


中央广播电视总台导演、AIGC 艺术家石宇翔(森海荧光)创作的一条动画短片《夏日的礼物》


在视频大模型领域,尽管已有如「图生视频」和「角色一致性」等能力,但 Vidu 的「主体参照」功能在一致性方面实现了质的飞跃。具体对比看:


  • 图生视频(Image to Video):基于首帧画面的连续生成,无法直接输出目标场景,限制了视频内容的多样性和场景的自由度;


  • 角色一致性(Character to Video):只限于人物面部特征的一致性,难以保证人物整体形象的稳定;


  • 主体参照(Subject Consistency):不局限于人物,面向任意主体,其次在人物主体下,可选择保持面部一致,也可选择保持人物整体形象的高度一致,通过输入文字描述灵活输出目标场景;


「主体参照」功能通过锁定角色或物体的形象,一方面让故事情节更具连贯性,另一方面让创作者能够更自由地探索故事的深度和广度。


对于故事短片和广告片来说,现在通过 Vidu 能够极大地节省广告制作的成本,整个产出流程更加高效,品牌方对新素材的开发也能更加灵活。


02 

革新「先生图、再生视频」

的制作流程


在涉及复杂动作和交互的情况下,保持主体的一致性是一项挑战。此外,视频模型的输出结果具有较大的随机性,对于镜头运用、光影效果等细节的控制也不够精细。


所以现阶段的视频模型虽然在画面表现力、物理规律、想象力等方面实现了一定程度的突破,但可控性的不足限制了它们在创作连贯、完整视频内容方面的应用。目前,大多数的 AI 视频内容还是基于独立视频素材的拼接,情节的连贯性不足。


为了解决这一问题,业界曾尝试采用「先 AI 生图、再图生视频」的方法,通过 AI 绘图工具如 Midjourney 生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。


但问题在于,AI 绘图的一致性并不完美,往往需要通过反复修改和局部重绘来解决。更重要的是,实际的视频制作过程中涉及众多场景和镜头,这种方法在处理多组分镜头的场景时,生图的工作量巨大,能占到全流程的一半以上,且最终的视频内容也会因为过分依赖分镜头画面而缺乏创造性和灵活性。


Vidu 的「主体参照」功能彻底改变了这一局面。它摒弃了传统的分镜头画面生成步骤,通过「上传主体图+输入场景描述词」的方式,直接生成视频素材。这一创新方法不仅大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,发挥更大的想象力,创造出画面丰富、灵活多变的视频内容。这一突破将为视频创作带来了前所未有的自由度和创新空间。



生树科技 CEO 唐家渝表示,"主体参照"这一全新功能的上线,代表着 AI 完整叙事的开端,AI 视频创作也将迈向更高效、更灵活的阶段。无论是制作短视频、动画作品还是广告片,在叙事的艺术中,一个完整的叙事体系是「主体一致、场景一致、风格一致」等要素的有机结合。


因此,视频模型要达到叙事的完整性,就必须在这些核心元素上实现全面可控。「主体参照」功能是 Vidu 在一致性方面迈出的重要一步,但这仅仅是开始。未来,Vidu 将继续探索如何精确控制多主体交互、风格统一、多变场景稳定切换等复杂元素,以满足更高层次的叙事需求。


文章来自于“Founder Park”,作者“Founder Park”。




关键词: Vidu , AI , AI视频 , 生树科技