今年年初,OpenAI发布的视频生成工具Sora引爆了AI直接生成视频的新时代。AI带来的更便捷、高效的视频制作流程和体验正在迅速颠覆整个内容行业。
在这股浪潮中,国内首个协助影视创作全流程的一站式AI工具Vchoo.ai也脱颖而出。用户只需输入一句话,Vchoo.ai便能为他们快速生成完整、有趣的故事内容,并按照用户喜好的风格合成故事视频。
Vchoo.ai简化了从故事创作到视频生成的过程,凭借其丰富的故事题材生成能力、多样化的画面风格以及稳定可控的角色和场景,让每个人都能通过Vchoo.ai轻松地将自己的故事视觉化。
近日,非凡产研特别采访到了Vchoo.ai的联合创始人&COO祝亮,请他分享了Vchoo.ai的产品理念及其对AI生成视频行业的洞察。
祝亮详细阐述了如何通过技术创新赋能用户,让每一个人都能成为讲故事的主人,而不仅仅是成为技术的旁观者。
Q:能否先介绍一下你们的核心产品和其主要应用场景?
祝:我们的产品Vchoo.ai是一站式AI故事创作平台,致力于将复杂的视频制作流程简化至极。用户只需输入一句话,即可根据个性化喜好和风格,快速生成引人入胜的故事视频。Vchoo.ai应用场景广泛,不仅可以将文字故事转化为生动的短片视频,还能推广网络小说、制作儿童和英文绘本,以及创造游戏宣传视频等。
自项目启动以来,我们在产品开发、市场推广和技术研究三方面紧密协作并行推进。
去年第四季度的项目筹备阶段,我们开展了全面的市场调研,覆盖广电、文旅、游戏和书刊漫画等多个领域,以确保产品方向与技术实现与市场需求相匹配。
今年4月,我们成功推出了Vchoo.ai 1.0版本,专注于解决将故事语言转化为视频语言的逻辑问题,例如将叙述性的故事描述转换为具有丰富表情和动作的影视镜头。目前1.1版本已成功上线,后续迭代版本也在陆续推出,进一步完善用户体验和创作流程。
在技术层面,我们正致力于训练先进的模型和算法,以确保视频中的人物动作和背景能够无缝融合,保持妆容等细节的一致性。7月份推出的1.2版本已经证明了我们技术路线的可行性,预计8月完成视频模型的训练,9月推出1.3版本,届时将带来更强大的AI视频创作能力及详尽的单镜头控制能力。
我们的目标是通过不断的技术创新和市场拓展,使Vchoo.ai成为行业内的领先平台,为用户提供最佳的AI故事创作体验。
Q:最近很多平台都在推AI短剧,您怎么看这个现象?
祝:我们去年也尝试用AI生成过短剧,但实话说,目前它只是个噱头,未能解决短剧的核心问题——内容创意。视频的本质是讲好故事并与观众产生共鸣,核心在于触动观众情感。目前,大家都还停留在生成镜头原材料阶段。这虽然是一个很好的尝试,但距离真正讲好故事还有一定距离。
Q:当前AI生成的视频普遍不太受欢迎,人物形象都很刻板且过分精致,也有人形容它们看起来有种“黏糊糊”的怪异感。请问相关技术多久财能迭代到让AI 生成的人物更真实呢?
祝:这个问题触及了AI视频生成技术的核心挑战。目前,AI生成的视频确实面临人物形象不够自然、缺乏真实感的问题。主要是因为技术还在不断发展和完善中。我们预计,随着技术的迭代和创新,未来几年内,AI生成的视频质量将会有显著提升,人物形象也将更加真实和自然。
去年,我们开始研发,想制作一些中国文化视频投放到海外。我们尝试了实拍、特效合成、虚幻引擎等多种制作方法,以及短视频、短剧、多支线互动剧等形式,但发现传统模式在成本、效率和质量上存在冲突。此外,创作门槛高,涉及导演、编剧、合成、实拍、摄影等复杂流程。基于我们的互联网和技术背景,我们尝试用AI辅助编辑。
然而,在评估国内外AI工具后,我们发现了三个问题:大模型生成内容碎片化,多模态工具协作复杂,内容生成式AI的视频可控性非常初级。
尽管这些AI工具显示了未来的趋势,能降低成本和提升效率,但体验过程却让人崩溃。因此,我们决定在今年4月自主开发产品,并从去年第四季度开始深入市场调研。
我们制作这个产品的动因是解决行业痛点。对于视频工具,我们强调回归本质——讲好故事,与观众共鸣,这才是其价值所在。一个有价值的视频工具应该实现这个目标。目前的热门工具多聚焦于技术突破,比如镜头拍摄等。但从生产关系与原料角度看,镜头只是原材料,而剧本大纲、角色、场景、分镜及剪辑则是加工工艺。只有将这些元素整合并经过全流程加工,才能讲好故事,实现共赢。我们认为未来复杂的视频加工工艺都能通过AI得到普及,这是我们做这件事的核心原因。
我们的定位是用AI辅助解决如多镜头下人和景连续性等问题,并训练自己的视频模型。优势在于解决创作故事的根本难点,即非专业用户如何用镜头表达文字想法。技术会继续突破,我们不必过度关注当前的一些画质问题,这是技术发展必然的阶段。给他们时间,他们会做得更好。未来将有更多像我们这样从全流程角度梳理市场并加工产品的团队,门槛也会逐渐降低。
总之,AI生成视频的技术还在快速发展中,随着时间推移和技术迭代,我们有理由相信AI生成的人物形象会变得越来越真实。我们的目标是通过不断的技术创新和产品优化,解决行业痛点,帮助用户创作出更真实、更有共鸣的故事视频。
Q:普通用户往往可能想法相似,用AI生成的内容同质性会不会很高?
祝:我们采用漏斗模型来理解用户想法的多样性。在漏斗的底部,有大量相似的想法;中部则汇聚了一些独特的创意;而顶部则聚集了最最天马行空的想法。
对于大多数人来说,将想法转化为视频是一项巨大的挑战。不仅需要掌握摄影和视频编辑等技术技能,还要熟悉各种工具,从基础的剪映到专业的PR软件。用户需要跨越多个学习曲线,才能实现从概念到视频的转变。
视频创作的真正难点在于将核心思想分解为具体的分镜头,并将其有效地布局和转化为视觉内容。这是我们在深入研究和广泛调研后识别出的最大挑战。
因此,我们的产品旨在满足用户的几个层面的需求:
我们首先专注于解决如何将文字转化为连续的镜头。用户只需输入一句话,我们的AI就能推断出所需的镜头,包括人物表情、动作和场景设计,并允许用户进行编辑和控制。我们的目标是让用户无需深入了解背后的AI技术,特别是复杂的Prompt编写,这是我们的产品设计理念和底层逻辑。
我们的产品思路是将每句话转化为视觉段落,最终合成为短片。如果用户有自己故事的文字描述,我们的AI语言模型将帮助他们将其转化为镜头语言,类似于大型语言模型的文本生成,但我们专注于通过强控制来确保内容的连贯性和流畅性。我们相信只有通过这种收敛的方法,才能确保内容的连贯性和流畅性。
在解决了基本的创作问题之后,我们计划进一步降低创作门槛,扩大用户基础。就像从胶片相机到手机摄影的转变一样,我们希望使视频创作变得像拍照一样简单,从而激发每个人的创造力,实现“人人可创作”的目标。
我们追求的是一个用户,一个创意,一个故事。视频创作曾经是一项昂贵且需要专业技术的活动,我们希望改变这一点,让创作变得触手可及。
Q:你们平台很像那种模拟经营游戏,互动性很强。您觉得未来是否会出现一个集生产与消费于一体的AI内容平台?
祝:我们的产品发展蓝图分为三个阶段:1.0阶段是基础建设,2.0阶段是内容分享,3.0阶段则主要专注于内容的生产和消费。这样规划的背后是考量了市场规律与用户喜好变化。年轻用户越来越倾向于追求个性化和自我认同的内容。目前,抖音和小红书等平台通过兴趣算法推荐的都是用户喜欢但是由其他人创作的内容。未来可能会出现一个平台,能够直接反映用户内心所想,满足他们对内容的直接需求。
从生产力经济学的角度来看,我们的产品策略与新兴的生产关系和生产方式相契合。我们当前已经完成了互联网1.0和2.0时代的原始数据积累。基于这些数据的算法突破,无论是语言模型还是图像处理技术,都已经在原材料加工和生产上取得了进展。我们预计,在未来一两年内,这一进程将得到显著加速。
新的生产工具的发展,如我们的产品和其他团队开发的类似工具,正在扩大使用基础。这不仅降低了生产工具的门槛,也改变了人们的意识。自媒体的兴起模糊了生产者与消费者之间的界限,使得许多人既是内容的消费者也是创作者。特别是在年轻群体中,基于个人兴趣和偏好参与创作的趋势日益明显。
我们相信,随着用户习惯的改变、创作能力的提高,以及生产关系和生产工具的发展,将慢慢具备实现这种变化的条件和趋势。我们的AI内容创作平台的核心需求是吸引更多的创作者。如果AI能够降低创作门槛,让普通人轻松表达想法,就能吸引更多人加入,形成一个电商渔网状结构,每个节点都是活跃的参与者。基于小众喜好形成的小圈子,生产者同时也是消费者,将进一步激发多次创作的热情。
我们对未来生产、消费一体的AI内容创作平台的理解是,它将超越现有的算法推荐形态,进化到更高级的形式。虽然目前还处于探索阶段,但像抖音、快手等大厂已经在积极投入。这背后的推动力来自于用户习惯的变化、生产力的提升、生产资料的丰富以及生产消费关系的整合。
Q:现在很多动漫、影视作品的粉丝经常会创作同人文等文本类二创内容,未来,用户可以利用AI视频平台直接产出视频版。未来内容创作者与用户之间的互动关系将变得更加深入,互动性也会更强。
祝:没错,艺术作品的粉丝群体对角色配对有着丰富的想象力,这不仅能催生新的内容创作,还能扩展至多个组合,每个节点都代表着新故事的可能。
未来的内容型平台多半可能会朝这个方向发展,让用户不再只是被动的接收者,而是深度参与到内容创作中。我们目前从视频角度切入,但未来这种方式可能发展成一个社区形态,甚至一个互动游戏形态。只是选择我们当前通过视频形式来实现第一步。
Q:您认为大模型和目前很多生成式AI工具将如何改变视频影视制作的工作流程?除了增强互动性之外,对专业人士和专业流程而言,还会产生哪些影响?
祝:AI技术解决的是原材料生产的问题,比如生成一个个镜头,但影视制作是一个高度依赖流程优化的过程,需要各种元素紧密且高效地结合在一起。这两方面有时会产生冲突,给创作者带来困扰。
影视制作流程中,需要详细规划分镜、大纲、任务分配等,是一个强项目管理的过程。而AI目前在某些方面是无法胜任的,能改变的细节流程有限,只能参与某些单独的环节以加速制作,如快速出原画设计、产品概念及分镜头系统。
目前,AI在影视作品中的参与度不一,但完全由AI制作的视频仍然是一种概念。AI缺乏讲述好故事的核心价值。在使用AI技术的实验性影片制作中,制作流程也有所不同。后期合成时,很多场景不需要像传统拍摄那样事先搭建得十分精细。前期只需简单设置一些元素,之后通过专业的背景合成团队进行初步处理。最终,会利用虚幻引擎等工具进行场景合成,借助AI技术加工和完善。这个流程我们在去年年底就测试了,未来会有几个典型的改变。
首先,第一个趋势是分工会发生变化,比如未来可能会出现AI导演,并引入AI剪辑训练师和解读师等。这将改变创作流程,从先拍后剪变为先剪后拍。很可能剧本由导演用AI写,然后AI训练师创建角色和场景,制作出先导片后团队再沟通调整。这避免了先拍后改的繁琐,实现先定故事再拍摄,这是一种趋势。
第二个趋势是降低投资片子的风险。现在拍片拉投资,投资人都是通常通过评估演员表现和有限片段来评估项目潜力和盈利可能,前期无法直接看到影视作品成片效果。而AI则能完成完整的样片。未来,如果是AI视频,很可能就是一个完整的系列,后续再考虑升级版,这样整体风险会降低,改变从拍后剪到剪后拍的流程逻辑。
第三个是纯技术突破。当前影视的核心在于服化道和场景,这些资源在拍摄完成后通常闲置或荒废。如果要补拍场景,需要重购。未来,我们计划在开发新场景前先完成影片的微调模型,包含角色、服化道、场景等。当导演构思出一场戏时,可以直接在预设模型基础上进行创作和调整。这种方法不仅提高工作效率,还具备可重复生成的优势,直到达到满意的成果为止。还先训练微调数据集,如果要拍续集,继续利用前一季的模型继续工作。
此外,通过微调模型,我们不仅能创造新的内容,还能将这一能力开放给用户,让他们自由地发挥创意。这与游戏领域的做法相似,将游戏进度素材转化为工具,激发游戏爱好者的创作热情。展望未来,视频资产同样可以通过训练微调模型,用于创作或其他用途,从而开拓新的市场。我们设想的工作流程将从传统的"先拍摄后剪辑"转变为"先剪辑后拍摄",这样的转变可能会显著降低风险。
Q:这三个方案在逻辑上都是可行的。我认为“先剪辑后拍摄”的策略现在就可以开始尝试,有些项目可以先用AI制作demo。不过,这一方案的实施还受限于大型模型的发展。您对此有何看法?
祝:从技术角度来看,大型模型生成视频,本质上是二维画面的连续播放,无论模型如何调整或定价,其核心原理并未改变。大型模型在动画制作等特定类型中当前已经能发挥重要作用,但要实现真人和特效视频的生成,还需要时间来取得突破。
关键在于如何充分利用三维空间,解决物理关系和时空序列的问题,这将为AI生成视频技术带来质的飞跃。视频制作的首要步骤是建模和完善人物角色及场景,当前已有的三维基础为AI提供了进一步发展的可能性。市场策略是先创造原材料,然后确定加工工艺,并逐步提炼出通用的加工模式和工艺流程。预计在未来一年内,许多团队将在基础原料方面取得突破,结合三维和时间序列算法,彻底解决相关问题。
我们可以从2D游戏向3D游戏的转变中汲取经验,现在的3D游戏已经非常逼真。与过去相比,现在的市场环境、内在条件以及软硬件设施都有了显著改善,尤其是在基础人才方面。随着编程门槛的降低和软件技术人才的增加,二维向三维的转变可能会比2D游戏向3D游戏的转变更快。基于市场判断,我们对此持乐观态度,并专注于解决故事创作的全流程问题,应用最新的技术成果。
在1.0阶段,我们的目标是打造造型和工具,而大型模型的开发则超出了我们的能力范围,更适合大公司来承担。随着大公司技术迭代,将衍生出许多新的可能性。
我们专注于应用开发,致力于将最新技术成果融入我们的产品中。对于那些无法直接获取的AI技术产品,我们选择自主开发,以确保技术与我们的需求紧密结合。我们不与大公司在大型模型领域竞争,而是专注于提供精细化的解决方案,解决影视创作中的特定挑战,如确保不同镜头下的人物与场景无缝融合,以及保持人物妆容、服装和动作的连贯性。
大型模型的广泛适用性未必适合我们所面临的所有问题。因此,我们选择了一条更为专注和精细化的道路。从小事做起,逐步推进。利用统一的算法和训练逻辑,依次开发不同风格的产品。这种策略使我们在保持技术连贯性的同时,能灵活适应市场和创作需求。
祝:目前,我们面临的主要挑战是数据集的质量而非成本控制。一旦确定了风格方向,我们需要确保数据集能够有效支持模型训练。7月份的运营成果已验证了我们的算法是可行的,但现在需要更多的数据集来进一步完善模型。
当前阶段,我们采用了较为粗放的方法来获取数据,并聘请大量人员进行标注。为确保数据质量,我们首先使用AI进行初步评估,然后通过人工复核来验证准确性。在这一过程中,我们建立了一套标准操作流程(SOP),以便在未来模型制作中能够更高效地应用。
初步训练一个风格可能需要数月时间,但熟练以后,后续的训练速度会显著加快,预计可能在一两个月内就能完成。许多技术创新通常源自学术界或特定领域的研究成果,我们的算法也得到了大学研究的帮助。
Q:要训练比如日式动漫之类的特定风格,你们从哪些途径获取数据,会有相关困难吗?
祝:我们的AI训练工作目前面临两个核心的挑战:首先是风格上的局限;其次是我们训练的重点不在于构建完整的画面。
在影视制作中,一个镜头的情感传递往往依赖于几个关键要素:在特定场景下,人物通过面部表情和身体动作来表达情绪。基于这一点,我们的训练策略专注于动作捕捉技术,而非简单地复制整个画面。我们专注于提取人物的骨架结构,并将表情进行抽象化处理。
例如,需要区分不同的微笑表情:是轻松的咧嘴微笑、开怀的大笑、含蓄的抿嘴微笑,还是含泪的微笑。我们的目标是精确捕捉和再现这些细微的表情变化和动作细节,因为它们是情感表达的核心。
通过这种方法,才能够更深入地理解和模拟人类情感的复杂性,为AI生成的动画注入更多的生命力和真实感。
Q:口型问题怎么处理?现在的数字人还存在一个很大的问题,就是人物口型与所说的话对应不上。
祝:对白处理方面,我们选择了一条高效之路。目前,开源技术已经相当成熟,这使我们无需在这一领域投入过多精力,极大简化了开发流程。
我们的技术团队专注于市场上尚无现成解决方案的难题。以影视制作为例,每个角色在对话中都有自己独特的讲话风格和特征,尤其在角色间的互动交流中体现的尤为明显。因此,我们的目标是通过精准分析和捕捉镜头中的细节来复现这些特征,而不是简单地重现整个场景。
在需要特写镜头时,我们会特别训练AI以捕捉和再现特定的表情和情感。我们的方法是将问题分解,让语言模型专注于推理过程。因此工作重点在于推导和优化算法,而不是数据的具体编译或故事构建,这些任务通常都能由大语言模型来完成。
Q:SOP会因为人的因素带来很多不确定性,如何利用技术工具和流程来减少人的不确定性呢?
祝:我们团队始终遵循TPMF(技术-产品-市场)的逻辑框架来审视和解决问题。这不仅要求团队成员对技术有深入的理解,更要求我们认识到技术的应用价值和市场潜力。为实现这一目标,我们持续进行市场调研,以确保我们的工作能够转化为实际的落地价值,并持续地被市场采纳和利用。
通过不断的市场调研、探索和试错,我们致力于发现和确定最具潜力的产品形态。我们相信,扩大用户基础是创造价值的关键。虽然这仍需要通过实践验证,但我们从胶片相机到数码相机,再到智能手机的发展历程中获得了灵感,认为扩大用户基数将催生新的生产关系和工具。
自媒体时代的到来使生产者和消费者之间的界限变得越来越模糊。我们预见,未来的劳动力基础可能会因技术进步而进一步扩大。虽然这一设想需要实践来证实,但我们对此充满信心,并已开始分析消费习惯的趋势和生产力的变革,以预测可能的生产关系变革。
面对技术挑战、应用层面的挑战以及对未来生产关系变化的挑战,我们团队将继续深入研究和创新,确保我们的产品不仅能够满足当前市场需求,还能引领市场发展的方向。
Q:除了8月份发布新产品外,今年你们整个发展上还有哪些规划,或者说有哪些进展?
祝:我们下半年的目标是在精确的小场景上实现完整的商业逻辑流程,并进行技术预演和迭代。对于如何实现这一全流程,我们仍在探索,但我们将继续保持每月迭代的理念,以推动市场、产品和技术的共同发展。
文章来自微信公众号 “ 非凡产研“,作者 AI商业智库
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales