ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
PixVerse V2 登场!一口气生成5个“Sora”,视频生成赛道“卷”飞了
7997点击    2024-07-24 20:48

“太卷了!”


从6月份开始,视频生成产品迎来了一波大爆发,从可灵到Luma、Runway Gen3,模型能力和产品化效果都越来越卷。


刚刚,PixVerse 更上线了V2版本,除了更新DiT架构外,竟然能一口气连续生成5个“Sora”效果的视频内容!



在猫猫吃面条、狗狗骑摩托等创意测试中,PixVerse V2 的视频清晰度、动态质量和美观性都发挥出色。





据硅星人了解到,基于DiT(Diffusion + Transformer)架构结合时空注意力机制,PixVerse V2在模型能力上有了阶段性的升级,支持单次生成8秒的视频,同时显著提升了视频的动态幅度、细节表现力和真实性;另一个重大的更新是,PixVerse V2 支持一键生成1-5段连续的视频内容,且片段之间会自动保持主体形象、画面风格和场景元素的一致性,即每个人都能够轻松生成40秒的视频内容!


从生成效果来看,一方面PixVerse V2版本的视频生成内容信息密度更高,在几秒内可以传递更多信息,同时在一致性上升级,也让生成内容变得更可用;另一方面,V2的产品设计尽可能复杂的功能简单化,让小白也能进行创作。


我们发现随着视频生成模型技术和产品的不断迭代,无论是国内还是国外,普通用户展现出了巨大的需求。AI视频内容的创作不拘泥于专业群体,普通用户同样渴望通过简单、直观的工具,表达自己的创意和想法。


带着这样的视角看PixVerse V2的产品迭代,就会发现每一个功能,都在努力向用户靠近。


一、每一次迭代,都离用户更近一步


PixVerse自上线以来,一直以技术创新和对用户需求的深刻洞察,成为了最受欢迎的视频生成产品之一。


在最新上线的V2版本中,突破性功能之一是能够一次生成多段视频,同时保持视频之间的元素一致性和连贯性。这项功能对于长篇视频内容的创作具有重大意义,它使得创作者可以围绕一个主题或故事线,生成一系列相互关联的视频片段。



测评中,我们发现PixVerse V2在处理复杂场景和长视频序列时表现出色。同一角色形象可以自由穿梭在不同的场景设定中,此外,连贯性不仅限于视觉上的一致,更包括了动作和情节上的流畅过渡,这对于叙事类视频尤为重要。





另一大亮点是其强化的可用性。不同于市场上那些只能生成短小片段的“创意玩具”,需要不停“抽卡”和二次剪辑,PixVerse V2不仅能生成高质量的视频片段,更能将短片段的创意延伸,从而直接输出完整可用的创意内容。


这一特点使得PixVerse V2不再局限于生成短镜头供二次剪辑,而是能够直接输出可用于多平台、多场景的完整视频。


在实际测评中,PixVerse V2的这一功能显著提升了视频创作的效率和便捷性。用户无需再花费大量时间在视频剪辑和合成上,可以更专注于创意和内容本身。无论是用于分享在社交媒体上的短视频,还是需要连续性的剧情视频,PixVerse V2都能提供一站式的解决方案。而强化的可用性,则进一步拓宽了AI视频生成技术的适用范围,使得普通用户和专业创作者都能从中受益。



我们可以看到PixVerse V2在技术层面的创新和在用户体验方面的多次打磨。据硅星人了解到,爱诗在底层模型中通过引入创新的时空注意力机制,使得PixVerse V2在Diffusion时空建模方面取得了突破,显著提升了对复杂场景的处理能力。同时,其强大的文本理解能力,使得模型能够更精准地将文本提示与视频内容相匹配,实现多模态的深度融合。


此外,PixVerse V2在运算效率上也进行了优化。通过对传统flow模型的改进和损失函数的加权处理,模型能够更快地收敛,从而提高了视频生成的速度和准确性。而3D VAE模型的引入和时空注意力机制的应用,进一步提升了视频压缩和重构的质量,确保了视频内容的高效传输和存储。


回顾PixVerse自发布以来的几个重大节点,我们会发现,这背后不仅是技术实力,更体现了其对市场和用户需求的敏锐把握。


5月份,PixVerse推出了具有革命性的运动笔刷功能。这一功能允许用户通过简单的绘制轨迹来控制视频中特定区域的运动,极大地提升了视频创作的灵活性和直观性。具体场景的使用包括但不限于动画制作、广告创意、社交媒体内容生成等。用户的反馈普遍积极,认为这一功能极大地简化了视频编辑过程,使得创作更加自由和直观。



在产品功能的设置上,当用户对生成结果基本满意但又想调整细节时,PixVerse支持二次编辑和自由变换的功能,使得用户能够根据不同平台和场景的需求,灵活调整视频的展示效果。此外,PixVerse还可以选择不同风格和画幅比例,为用户提供了更高维度的视频创作自由度。



从运动笔刷到人物一致性功能,再到V2版本的连贯视频生成,每一次更新都离用户更近了一步。这种以用户为中心的创新理念,使得PixVerse不仅是一款技术实现的产品,更成为了用户创意实现的伙伴。


二、深度决定创新


当我们评价一款视频生成产品究竟是玩具还是生产力工具时,信息密度是衡量内容质量的重要指标。


如果一个小球在空白背景下无规则运动,那它可以运动无限长的时间,但却提供了非常少的信息。


爱诗科技在PixVerse V2中,便试图通过技术的手段增加视频生成的信息密度,将用户从繁琐的视频素材编辑中解放出来,直接进入充满创意的视频内容创作。对于一致性的极致追求,保证多片段的主体不变等等功能,皆是为了从视频素材,直接到可发布的视频内容。


PixVerse产品负责人介绍道:团队始终坚持“与用户同行”的产品思路。在产品开发的早期阶段,团队会进行深入的预调研,包括与行业从业者的交流、对实际用户的观察以及社区反馈的收集。这种全方位的用户研究方法使爱诗能够捕捉到细微但关键的用户需求,即使是用户提出的小功能点,也会被认真对待并进行测试。


这种用户驱动的创新理念,让PixVerse的功能更加贴近用户的实际需求。爱诗产品负责人分享了Magic Brush的诞生过程,是爱诗在打造产品时一个典型代表。


今年初,Runway上线了第一款笔刷Motion Brush,用户可通过选择不同的笔刷,调整下方的控制按钮来调整主体的运动轨迹。看到这个功能以及通过市场调研、用户访谈和社区反馈,发现用户的确存在更灵活的视频编辑工具的高度需求,但Motion Brush的交互方式还并不够灵活,在调试上也不够精准可控。



发现这个需求之后,PixVerse的产品团队集中讨论了:究竟什么样的交互方式,才能让用户更直观、简洁地使用笔刷的功能?


基于前期的用户调研后,产品团队发现,首先用户需要调试多个主体的运动轨迹,而Motion Brush中并没有分区选择的功能;其次,在选择主体之后,主体的运动轨迹多变,上下左右的控制按钮没办法模拟真实的运动效果。所以在Magic Brush的打造中,产品团队选择了涂抹、智能选择分区的方式,以及让用户能够360度自由绘制运动轨迹的交互方式。



但这样的交互方式,方便了用户却在技术上提出了更大的挑战。基于DiT架构,爱诗的技术团队开发了支持Magic Brush功能的核心算法,通过解析用户的笔触输入,并将其转化为视频中的运动效果。


Magic Brush 从发现用户需求,到产品立项、再到技术解决方案,仅仅一个月的时间,便快速上线。这背后和爱诗“短、平、快”的公司运作模式有着分不开的关系。


市场部门能够迅速收集用户反馈,并及时传达给产品和技术团队。这种快速的信息流通和决策过程,使得爱诗能够迅速考虑需求的可行性,进行A/B测试,并快速作出决策。这种敏捷性是创业公司独有的优势,也是爱诗能够快速迭代产品的关键。


相对于大型科技公司来说,创业公司在响应速度和灵活性上有着一定的优势。这种敏捷性不仅体现在产品开发和市场策略上,还深刻影响着企业文化和组织结构。由于规模较小,创业公司在资源调配上更为灵活。它们可以快速将资源从一项任务转移到另一项任务,或者从一个项目转移到另一个项目,从而确保资源利用的最大化。


同时更注重用户反馈,并将用户需求放在产品开发的中心位置。这种用户驱动的产品开发方法使得创业公司能够更快地推出满足用户需求的产品。许多创业公司采用敏捷开发方法,这种方法强调快速迭代和持续改进。通过定期发布新功能和修复错误,更快地将产品推向市场,并根据用户反馈进行优化。


从爱诗身上体现出的敏捷性和深度创新,是在大模型新时代下,创业公司的独特优势。


三、要好技术,更要好产品


时至今日,我们发现,技术落地到用户,其实有很长的一段路要走,而产品是最重要的连接器。技术是推动创新的动力,但只有当技术通过产品与用户连接时,其价值才能得到真正的体现。


在PixVerse的开发过程中,爱诗科技团队对每一个细节都进行了精心打磨。在V2版本中,为了增强视频的可用性,PixVerse支持对生成结果进行二次编辑,通过智能识别内容和自动联想功能,用户可以灵活替换调整视频主体、动作、环境和运镜,进一步丰富创作的可能性。



爱诗产品负责人也表示:“技术的长板和差异性固然重要,但产品化以及通过产品连接到越来越多的用户形成的用户壁垒和技术反哺,则更加关键。”


同时在技术发展的早期,产品也是技术落地的抓手。将先进的AI技术转化为用户可感知、可操作的实际产品功能。这种从技术到产品的转变,不仅加速了技术的应用,也为用户提供了前所未有的便利和创造力。


尤其是在技术尚未达到目标水平时,技术与产品之间的双向促进便更加具有现实意义。


比如上面提到的Magic Brush,就有创作者反馈道:“在现阶段底模能力达不到多主体都按照物理世界移动时,通过运动笔刷自定义能够增加创作空间。一些人物的眨眼、表情、复杂的相对运动都可以通过运动笔刷来完成。”



现阶段,文生视频虽然在概念上颇具吸引力,但在实践中面临着生成内容的局限性。由于文本本身的信息密度有限,直接从文本描述转化为视频内容时,往往难以传达复杂场景和动态变化的所有细节。因此,图生视频作为一种阶段性的解决方案应运而生。


相较于文生视频,图生视频能够提供更高的信息密度,因为它基于视觉信息进行生成,能够更准确地捕捉和再现场景的复杂性。在底模能力还未解决文字与视频信息密度的差值时,图生视频的引入不仅是技术进步的体现,也是产品设计思路的创新。


在技术的早期,爱诗的战略体现在一边进行技术的突破另一边更重视产品化落地。形成技术壁垒之外的用户壁垒、和通过对用户的理解和洞察,建立的产品壁垒,从而推动着技术的边界和产品的极限。


一款真正能被用上的视频生成产品才最终能被留下,它必须在满足用户当前需求的同时,也着眼于未来,选择一条可持续的技术发展路径。


无论是早期对一致性技术的“死磕”,还是Magic Brush的迭代,到PixVerse V2版本的全新升级,爱诗的产品战略,一方面立足当下,解决实际问题;另一方面放眼未来,选择长期发展的道路,更致力于构建一个可持续发展的未来。


通过持续的技术研发、深入的用户洞察、以及对产品细节的精心打磨,在视频生成行业,无论公司大小,都需要技术上不断突破,创造出真正有价值、能够激发创造力的产品。


正如PixVerse V2的slogan:Unleashing Creative Potential for Everyone,这不仅是PixVerse的机会,更是大模型时代,所有创作者的机会。


文章来源于“硅星人Pro”,作者'oky”




关键词: PixVerse V2 , AI , AI视频 , Luma , Runway Gen3