ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
国产视频生成大模型大爆发,三分钟AI短剧批量上线
8207点击    2024-08-09 10:02

争夺“中国版Sora”金牌 演员和编剧或面临“失业危机”



巴黎奥运会如火如荼地进行着,视频生成大模型的赛场同样热闹,国内多位“参赛选手”纷纷亮相,只为争夺名为“中国版Sora”的金牌。


在刚刚过去的七月,生数科技打造的视频大模型Vidu上线,面向用户开放文生视频和图生视频两大功能;智谱AI正式发布视频生成大模型“清影”;商汤发布首个面向C端用户的可控人物视频生成大模型Vimi;阿里达摩院推出一站式AI视频创作平台“寻光”;快手可灵AI正式上线网页端,并开源名为LivePortrait的可控人像视频生成框架……


AI视频大模型令人惊叹的“增速”,不仅在资本市场炙手可热,更带给影视行业不小的冲击,尤其是当抖音、快手以及央视推出AI制作的短剧后,演员和编剧也开始面临“失业危机”。


不过,科技产品从实验室走向市场,能力至关重要。AI视频大模型能否高质量实现生成内容的连贯性和一致性,才是决定其未来发展的关键。


摸着Sora过河


尽管Sora还没有向公众开放,但提及文生视频,Sora是一个绕不开的话题。


“目前,国产视频生成大模型的技术路径与Sora基本一致,只不过每家都会加入自己的Trick(技巧)。”Logenic AI联合创始人李博杰告诉《IT时报》记者,视频的本质可以看成是多张图片的连续排布放映,在文生图大模型中,最被人们熟知的技术是扩散模型,它可以根据输入的文字描述,获取数据的内在结构和分布规律,从而生成单张图片。


但扩散模型在语义、数据之间的联系存在局限,就需要Transformer模型将不同数据进行互相关联,联想生成大量图片,表达帧与帧之间的关系,最终通过编码器压缩成一条视频。


李博杰表示,目前视频生成大模型的算力可以达到ChatGPT3.5的水平,但还不及ChatGPT4的万卡集群规模,国内许多企业都具备这样的算力。因此在有限的算力下,决定视频质量的关键取决于数据的质量和数量,画面的连贯性也可以通过大量数据训练而实现。


不过,由于关键数据获取难、原始世界数据被越来越多的AI生成内容所“污染”,加上视频数据大多缺乏对应描述性文本或者描述质量低下,国产视频生成大模型开始从模型结构、组件等方面寻求技术突破来保证连贯性。


以智谱清影为例,智谱清影相关负责人周文(化名)告诉《IT时报》记者,为了解决内容连贯性的问题,智谱自研的三维变分自编码器结构(3D VAE)将原视频空间压缩至2%,减少了视频扩散生成模型的训练成本及训练难度。


模型结构方面,将因果三维卷积(Causal 3D convolution)作为主要模型组件,移除自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。同时,在时间维度上,因果卷积的形式也使得模型具备视频编解码从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。


与传统路径不同的是,智谱清影摒弃了交叉注意力机制(Cross Attention)模块,采用将文本、时间、空间三个维度全部融合起来的Transformer架构,在输入阶段就将文本和视频向量化(Embedding),然后再将不同模态的向量直接连接(Concatenate)起来,形成单一的特征向量,输入到下游任务中。



不过,这两种不同结构的数据特征空间有较大差异,此时就需要通过专家自适应层归一化技术(Expert Adaptive Layernorm)对文本和视频两个模态分别进行处理,利用扩散模型中的时间步信息,实现视觉信息与语义信息的对齐。


一个人拍一部剧成为可能


视频生成大模型的批量上线,最有可能被影响的是影视行业。


“不可否认,视频生成大模型让我们看到了影视发展的新可能。”上海大学温哥华电影学院副院长陈晓达告诉《IT时报》记者,AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间,也降低了入局门槛,一个人就有可能拍摄完一部剧。


6月28日,中央广播电视影视剧纪录片中心制作的三部AI短剧《英雄》《爱永无终止》《奇幻专卖店》上线央视频。此后,博纳影业与抖音合作推出AI科幻短剧《三星堆:未来启示录》,快手也利用可灵AI原创上线了AI奇幻短剧《山海奇镜之劈波斩浪》。截至8月8日,抖音和快手打造的两部AI短剧在所属平台播放量已经分别累计达到5504.7万次和5243.2万次。



从这些AI短剧中可以看到,人物角色的面部特征从始至终保持一致。通常而言,单纯使用文字描述生成视频时,每次的结果都会有一定差异,那么,这些短剧的一致性是如何实现的呢?


李博杰分析,其中可能用到了文生视频的核心模型——ControlNet。ControlNet是一种“辅助式”的神经网络模型结构,通过在Stable Diffusion模型中添加辅助模块,形成一个“锁定”副本和可训练副本。简单来说,通过ControlNet完成人物形象建模后“锁定”,再通过可训练副本进行后期视频场景、动作等变换。


也正是因为“锁定”,视频人物难以实现大幅度动作,陈晓达经过实测后告诉记者,每生成一帧画面都是一次“开盲盒”的过程,无法确保生成内容符合标准,因此只能花费大量时间不断生成,从中挑选出可用画面拼凑成一部短剧,“你会发现宣传的都是3分钟以内的短剧,想要靠AI生成拼凑出一部完整的长视频作品,目前还做不到。”


《山海奇镜之劈波斩浪》导演陈坤同样认为,在人物一致性、场景一致性、人物表演、动作交互等AI技术还没有高度可控和精确化的前提下,AI影视作品并不适合呈现特别复杂的故事,容易让观众出戏。



智谱AI CEO张鹏在接受媒体采访时也表示,现在视频生成大模型的商业化仍处于非常早期的阶段,生成效果对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。


“三无”AI电影威胁好莱坞


市场是有“嗅觉”的,虽然目前生成效果并不完美,但视频生成大模型赛道的火热程度不言而喻。启明创投主管合伙人周志峰在2024世界人工智能大会上预测,3年内AI视频生成技术将全面爆发。头豹研究院数据显示,预计到2026年,中国AI视频生成行业的市场规模将达到92.79亿元。


具体来看,快手可灵发布三个多月后,申请体验用户数量已突破 70 万,甚至出现排队等候申请的情况,累计生成的视频作品达 700 万份;爱诗科技打造的PixVerse大模型在国内上线88天后,达到一千万次视频生成量。这也成为央视着手制作AI短剧的原因之一。



当无演员演绎、无场景搭建、无绿幕特效的“三无”AI影视作品走向市场时,演员和编剧的“危机”也悄然来临。博纳影业集团影视制作副总经理曲吉小江在China Joy短剧创新论坛上表示,将为AI短剧塑造的角色打造热门个人IP。


面对AI“威胁”情况,从去年夏天开始,美国编剧工会和演员工会联手发起大罢工,让好莱坞陷入长达数月的停摆,导致影视作品数量大幅减少。据外媒报道,这一情况在今年依然没有出现好转,部分演员还被要求在与华纳公司的合同中同意使用“数字合成形象”,若拒绝则可能失去工作机会。


从国产视频生成大模型的现有能力来看,制作动态海报、广告短片、特效动画等已经不在话下,且应用场景还在扩展。陈晓达认为,技术本身固然重要,但首先要让使用者掌握标准化的工业流程,新技术才得以长效落地,“AI技术短时间内没法取代演员和编剧的地位,但会使用AI技术的人很快就能取代他们”。


对此,上海大学温哥华电影学院在去年2月开始开设AI电影课程,一方面让学生学会使用AI来提升影视制作效率和节省成本;另一方面也是为了顺应时代浪潮,不被“取代”。


文章来源于“IT时报”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
肖像动画

【开源免费】LivePortrait项目可以实现高效的人像动画,通过拼接和重定向控制技术,使一个静态人像或动物图像能够变成动态的视频,变成动画形式。

项目地址:https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner