ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题
8176点击    2024-07-06 20:09

AIGC时代,视频创作这事儿真的不一样了。


就像这样,轻轻一圈,选定目标立刻变身单独图层,再丝滑嵌入不同的背景视频,场景变换so easy~



想要调整一下镜头角度,交给AI,同样能一键完成:



还能一键消除、修改目标:



后期再也不用加班加到手抽筋(doge)。


划!重!点!这还不是实验室里的单一技术demo,而是马上就要开放内测,让创作者们直接可以用起来的一站式AI视频创作平台——“寻光”。


就是说,传统上分散在不同制作流程中的剧本创作、分镜图设计、视频素材编辑等步骤,现在都可以在AI加持下,在同一个平台上流畅完成。


这就是阿里达摩院在上海世界人工智能大会上带来的最新惊喜。


演示一出,现场的观众都坐不住了。



而达摩院官方,也透露出了AI视频领域新成果背后更大的“野心”:


不对标Sora,而是走自己的路,希望更快让AI生产力匹配人类想象力


“寻梦光影间”


所谓寻光,意指“寻梦光影间”:


即通过人工智能技术,提供全新的视频创作模式。



与Sora等今年备受关注的AI视频生成模型不同,寻光关注到的,是“Sora之后,视频工作流的变革”。


达摩院认为,Sora等AI视频生成模型给足了人们对视频生产方式彻底变革的想象力,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解、生成对象的一致性等,仍然是当前算法所面临的一大挑战。


另一方面,业界尚没有统一的AI视频编辑平台,能让创作者们一站式体验到AI加持的视频创作全流程。


举个例子,OpenAI创始成员Andrej Karpathy最近也玩上了AI视频,整出了个AI版《傲慢与偏见》



在这个短片的制作过程中,他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说:


老实说这个工作流非常混乱,工具与工具之间存在大量的复制粘贴,3个片段的简单小视频就花了我大约1个小时的时间。

这里面存在一个巨大的机会。谁正在打造100%的AI原生视频制作平台?

达摩院打造寻光,定位为PUGC一站式AI视频创作平台,目标正是针对以上问题,用AI能力重塑传统视频制作的全流程


具体来说,寻光可以辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能。



并且在交互方面,主打“让视频编辑像操作PPT一样简单”


以分镜设计环节为例,上传到寻光的原始视频素材,会由算法切分成多个分镜头。


在创作空间里,用户可以方便地查看到每一个分镜头,并用简单的拖拽操作对其进行调整。


在新建的空白分镜中,除了添加已有素材,寻光平台还支持用户调用多种多模态生成模型,生产新的内容。



而在编辑功能方面,寻光强调的是精细化的编辑和控制:在AI加持下,依据用户意图,在语义层面而不是像素层面实现编辑;同时,视频里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。


在现场,达摩院视觉技术实验室高级算法专家陈威华着重提到了基于视频图层的编辑能力


以前景图层功能为例,用户通过文本输入,即可生成符合描述的、具有透明背景的视频,并且一键就能将其融合到其他背景视频当中。



寻光也支持图层拆解功能,用户在视频第一帧选择想要提取的物体,算法就会自动跟踪,把整段视频中对应的目标拆解出来,形成独立的带透明背景的视频图层。


飘动的头发也扣得很精细的那种:



另外,在对视频全局元素的编辑方面,风格迁移上,寻光平台提供了20+不同风格。



运镜控制上,左右平移、上下平移、推进拉远、左右环绕等都能支持。



在对视频局部元素的编辑方面,除了目标消除,寻光平台还能实现人脸的精准控制:



视频取自国风武侠动漫《少年白马醉春风》第三集


轻轻一拉实现运动控制:



如此看来,寻光可以说集成了市面上最完备的AI编辑功能,把一整个视频制作工作流都给AI化了。相比于在各种工具间跳来跳去,在传统工作流中零散地插入AI能力,属实更加方便、高效了。


重塑视频创作工作流


探索更理解物理世界规律、生成时长更长、生成效果更惊艳的多模态的模型,是当今工业界和学术界都密切关注的方向。


但当更强大的AI面世后,人们能否更快掌握这种新型生产力,同样是值得关注的话题。


在Karpathy挑起话题之后,就有不少网友表示确实戳中痛点:


从一个工具转移到另一个工具会破坏工作状态,说实话,这限制了这些工具对效率的提升。

AI视频创作需要统一的UI。


陈威华也在WAIC现场谈到:


今天我们正处在AI视频生成这场巨大变革之中,“工欲善其事,必先利其器”,我们希望寻光视频创作平台就是每一个人手中的利器,是每一个人的专属视频工作室,在这个平台上,AI与创作者之间能够更紧密高效地协作。

为此,寻光平台背后的达摩院视觉技术实验室已做了大量技术储备。


该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像/视频/3D内容生成,更加可控的图像/视频/3D内容编辑,更加高效的生成框架,多模态的理解-生成框架等。


AIGC在全世界范围内引爆热潮,核心在于带来了生产力彻底变革的想象空间。


现在,解放生产力的第一步,已经开始落地实践,你期待吗?


文章来源于“量子位”,作者“关注前沿科技


关键词: AI视频 , AI , 大模型 , 寻光 , sora
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)