AI 视频圈正杀得你死我活。
前脚快手高调发布可灵,后脚 Luma 不甘示弱,推出最新视频模型 Dream Machine,紧接着 Runway 横插一脚,祭出 Gen-3 这个大杀器。
在微妙的 FOMO 气氛带动下,更多玩家秉持着「累死自己,卷死同行」的宗旨,一头扎进这个赛道 ——
阿里巴巴达摩院押注「寻光视频创作平台」、字节即梦 AI 探索「生成式影剧」、美图 MOKI 盯上 AI 短片创作、Haiper AI 则聚焦创意表达 ……
7 月 5 日的上海,火热,像极了 AI 视频圈的焦灼。
这一天,上海世博展览馆 H3 馆 X 会议室人头攒动,一场由世界人工智能大会组委会办公室主办,机器之心、东浩兰生共同承办的「2024 WAIC 视频生成前沿技术论坛」正如火如荼地进行。
该论坛汇聚了众多 AI 视频领域的明星企业和专家,共同探讨视频生成技术的最新进展及其在产业应用中的创新实践。
自 ChatGPT 横空出世后,Sora 引爆的视频生成技术绝对是科技界的「当红炸子鸡」。
尽管这一领域目前尚处起步阶段,但视频生成技术以其惊人的发展速度和极具潜力的应用前景,正不断拓展数字内容创作的边界。
阿里巴巴达摩院视频生成负责人陈威华、上海交通大学电子系教授倪冰冰、美图公司集团高级副总裁陈剑毅、Haiper AI 创始人缪亦舒出席本次论坛并发表主题演讲。
阿里巴巴达摩院视频生成负责人陈威华表示,年初 Sora 的发布不仅展示了 AI 视频生成在高清晰度、高保真度、高质量方面的巨大潜力,更激发了人们对这一技术的无限想象。
尽管 Sora 非常酷,但生成过程仍难以控制,主角的一致性难以保证,需要大量人工后期编辑才能达到最佳效果。
「视频内容的控制是创作中最大的需求,也是今天我们算法所面临的最大挑战。」陈威华说。
阿里巴巴达摩院最新发布的 AIGC 产品 —— 寻光视频创作平台,旨在提升视频制作效率,解决视频后期编辑问题,通过简易的分镜头组织形式和丰富的视频编辑能力,让用户实现对视频内容的精准控制,并保持多个视频中角色和场景的一致性。
寻光为 AI 视频的广泛应用提供了一站式的工具平台,AI 不会取代创作者的工作,而是会优化视频创作的工作流,成为创意驱动的新引擎。
上海交通大学电子系教授倪冰冰则分享了面向矢量化的媒体内容生成技术。
演讲一开始,他就泼了一盆冷水。
「当前的生成算法都面临着结构性和细节性的问题。例如,生成的内容可能会多出或缺少某些元素,抑或是手穿模等。对于那些需要符合物理规则的精细化视频,目前的生成技术仍面临挑战。」倪冰冰说,究其原因,所有生成式智能本质上是一个采样过程,而视频是一个高维度的空间,尽管通过增加训练数据和降低采样精度可以提高内容质量,但由于维度空间极高,要达到完美无缺的程度,在当前技术框架下仍有一定难度。
此外,算力的限制也是一个重要因素。目前,包括大语言模型、图像视频生成模型在内的算力指标已经达到几十 T、上百 T 甚至上千 T 的水平。未来,生成式智能的发展趋势肯定会向端侧下沉,而端侧不可能使用无限制的大算力采样方式解决问题。
对此,倪冰冰提出利用矢量化表征框架,将视频内容实例化到网络参数,从而实现精确操控生成内容,并更好地符合物理世界规则。
他认为生成式人工智能目前阶段性的成功是以算力与数据的过度消耗为代价的,未来应聚焦于媒体内容的新型表征与生成式计算新范式,积极打造更加高质高效的媒体新质生产力。
美图公司集团高级副总裁陈剑毅则从产品经理的视角分析了 AI 视频生成的应用场景和挑战。
在用户调研中,他发现两个有趣的现象。
一是圈内人会因为视频由 AI 生成而惊叹,但对于普通用户而言,他们并不关心视频是否由 AI 生成,而是聚焦于内容是否吸引人。
「这意味着,无论 AI 视频生成技术达到何种视觉体验,我们都必须回归到内容本身,关注视频想要传递的价值观和故事。」陈剑毅说。
二是大多数普通用户对「文生图」和 「文生视频」这类专业术语并不熟悉,也不清楚它们的具体用途。就拿「文生图」来说,这个名词就像当年 PhotoShop 的 「液化」功能一样,让人难以理解,然而,如果将其做个场景限定,描述为「瘦脸瘦身」功能,用户就更能直观地理解其价值。「文生视频」也同理。
同时,他表示,AI 视频生成技术让内容表达更加具象,丰富了视觉创意和体验度,但其仍需解决视觉设定可控性、动态可控性和音频可控性等关键问题。
美图探索的 AI 短片创作平台 MOKI,正攻克这几大难点。
据介绍,MOKI 以 AI 视频生成技术为核心,构建了一个全面的短片工作流程。前期阶段,创作者可以进行脚本编写、视觉风格设计和角色设定,然后利用 AI 技术生成视频素材。最终,通过 AI 的后期制作能力,将所有素材串联起来,形成一个连贯的短片。
作为明星创业公司 Haiper AI 创始人,缪亦舒深入探讨了视频生成技术的意义和价值。
缪亦舒说:「我们经常听到这样的观点,比如『语言即智能』或『大语言模型即通用人工智能(AGI)』。然而,仅靠语言学习真的能直接引领我们通往 AGI 吗?语言是人类获取知识的重要途径之一,但并非唯一途径。人类通过视觉、听觉、阅读和动觉等多种学习方式来学习。AI 也需要通过多种模态融合去学习和构建真正的通用智能。」
GPT-3.5 推出后,许多人提出 「自然语言处理 (NLP) 不存在了」的观点,因为大语言模型通过自回归生成式模型(每次预测下一个词),基本解决了语言系统学习和语义推理的问题,我们甚至不再需要判别式模型来对特定的推理问题进行微调。
类似地,视频生成模型也是通过自回归的方式构建生成式模型(每次预测下一个视频帧),模型因此隐式地学习了深度预测、语义标注和语义分割等计算机视觉领域的重要任务。因此,在 2024 年,我们会听到类似 「计算机视觉(CV)不存在了」 的言论,因为视频生成模型在学习生成视频内容的过程中,已经逐渐掌握到感知能力和物理规律。
「我们是否需要像小狗一样理解牛顿第一定律才能在街上追逐蝴蝶?是否需要像 5 岁的小孩一样知道所有物理定律才能行走和骑自行车?答案是否定的。人类通过与世界的不断互动和观察,通过各种建模来学习。事实上,视频生成模型已经通过学习生成多样的视频内容构建了世界模型,我们可以轻松地通过提示词与世界模型互动,渲染出我们想要的视频内容,而这一切并不需要我们显式地搭建一个模拟器来模拟所谓的物理规律。」
缪亦舒强调,「Video Generation Is Beyond Generating Videos」。在他看来,视频生成模型不仅能生成视频内容,更是通过多模态学习基础感知能力的重要一步,也是人工智能走向 AGI 的必经之路。
除了四位专家学者的主题分享,论坛还邀请了来自学界、企业、创业公司、知名投资机构的嘉宾,围绕视频生成的前沿技术、场景落地行业创新应用实践等议题进行深度圆桌讨论。
第一场圆桌讨论中,井英科技创始人 & CEO 朱江、新加坡南洋理工大学助理教授刘子纬、盛趣游戏技术中心 AI 负责人李锋、倚天资本合伙人乐元等嘉宾围绕「大模型驱动下,视频生成技术提升路径将何去何从?」这一主题展开深入探讨,阐述了视频生成技术在行业的落地前景。
井英科技创始人 & CEO 朱江将视频生成技术类比于寒武纪生命大爆发,认为当前处于一个技术和应用快速发展的阶段。他强调,应用层公司需要保持对技术的理解和领先,同时关注用户需求,才能在竞争中脱颖而出。他表示,最终模型公司和应用公司都能生存下来,但模型公司可能会更加通用,而应用公司则需要更加关注用户和商业的理解。
新加坡南洋理工大学助理教授刘子纬认为视频生成技术目前处于 GPT-3 时代,距离成熟还有半年左右的时间。他分析了 Diffusion、Transformer 和语言模型三条技术路径的优缺点,认为未来可能会融合发展。他还强调,需要探索视频生成技术的「牛顿第一定律」,即如何通过投入算力和数据来获得可预测的提升。
盛趣游戏技术中心 AI 负责人李锋从游戏行业的角度出发,认为视频生成技术可以提升游戏研发效率和创意水平。他希望能够与模型公司合作,将视频生成技术应用到游戏研发流程中,例如参考可微渲染的思路去做关卡设计和布局预演,在研发协同合作时的沟通方式可视化对齐以和其他动态资产影像生成。
倚天资本合伙人乐元则从资本的视角,分析了视频生成技术商业落地面临的挑战。他认为,视频生成技术在最近两三年取得了远超预期的进步,这是令人惊喜的,但客观来讲今天的技术水平还是不足以支撑大范围商业化,基于语言模型开发应用所使用的方法论和遇到的挑战,在视频相关的应用领域也同样适用。
论坛的第二个圆桌对话聚焦于「解构生成式 AI 浪潮下,视频生成应用的创新与机会」,来自五源资本、FancyTech、Morph AI 和斯坦福大学的嘉宾,从投资、应用、技术和艺术等多个角度,挖掘了视频生成技术的发展方向和应用场景。
FancyTech(时代涌现)创始人 & CEO 空界认为视频生成技术将带来供给侧的改革,让更多人能够参与内容创作。他介绍了 FancyTech 的 To B 视频生成平台,通过将现实物品还原到虚拟场景中,帮助商家降低内容创作成本。
五源资本副总裁石允丰提到,目前的视频生成还处于早期发展阶段,类似于 GPT2 刚发布时的探索状态。技术的底座还没有稳固时找 PMF 的挑战很大。他认为,尽管技术在不断进步,创作者也非常有热情,有一定范围的传播,但没有广泛的内容消费。需要有天才的产品经理将产品做裁剪,创造出和现有信息流不兼容的新内容形态。
Morph AI 创始人 & CEO 徐怀哲认为视频生成的技术和应用同样重要,作为技术出身的团队,更要协调好模型层和应用层的开发。他介绍了 Morph Studio 这款 All-in-one 的 AI 视频制作工具,是基于 Morph 领先的 AI 视频大模型打造,目前已在全球公测,并收到了积极的反馈。未来,Morph 将持续通过用户反馈,不断优化产品功能和用户体验,让其 AI 视频技术能够通过产品更快的落地,更优的帮助创作者。
斯坦福大学博士后研究员饶安逸则从艺术和科技的结合角度出发,认为视频生成技术可以激发更多交互式创作方式。他强调,机器和人都不能做到 100% 正确,因此在创作过程中需要引入交互式改进机制,让机器和人协同完成创作。
总体而言,圆桌对话的嘉宾们对视频生成技术的应用前景充满期待,但也认识到当前技术仍处于早期阶段,需要探索新的商业模式和应用场景才能实现更大的价值。
本次论坛的成功举办,不仅为 AI 视频领域的从业者提供了一个交流与学习的平台,也为相关产业链上的各个环节提供了更多合作的机会。展望未来,AI 视频技术将迎来更加广阔的发展空间和更加丰富的应用场景,为人类创造更加美好的视觉体验。
文章来自于微信公众号“机器之心”,作者 “机器之心”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0