ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
让AI视频进入「全民GC」时代,这家中国公司刚刚真的做到了
9221点击    2024-07-24 17:16

更低门槛,更高质量,更有逻辑,更长时长。


这几个“更”,让上午刚刚亮相的国产AI视频新产品PixVerse V2,热度唰一下就上去了。


而且它出身很吸睛:


来自这条赛道上最受关注的国内明星创业公司爱诗科技,仅今年上半年,该公司就完成了两轮融资。



直接看Pixverse V2有哪些重点“新意”:


模型技术方面,采用了DiT(Diffusion+Transformer)架构,同时在多个方面运用独创技术显著提升生成效果。


如引入时空注意力机制等,实现运动幅度更大、更自然的视频生成。


且看下面这个小羊驼快乐冲浪,就和今天LIama 3.1发布即登顶很应景。



视频数量与质量方面,支持一键生成至多5段连续的视频内容。


且片段之间会自动保持主体形象、画面风格和场景元素的一致性。



除此之外,爱诗官方介绍还说明,新产品的提示词门槛又被砍了狠狠一刀


不论是否学过提示词技巧, 只需言简意赅表达清楚画面需求,就能简单实现。而且中文语境同样适用


再加上一次生成的几段视频之间,有风格、主体和场景的一致性——


现在制作一条短视频不仅不需要自己拍,连剪都不需要再自己剪了


一键生成,直接上传各个平台分享,鹅妹子嘤!



既保质又保量,门槛还一低再低。


AI视频创作已经被爱诗PixVerse、Runway、Luma等卷得昏天黑地的公司们,卷入了全民能玩转的时代。


至多生成5段视频,让创意可连续


不过,等一下!


我们是绝对不会轻易被各个公司放出来的demo蒙蔽双眼的。


于是,今天上午发现PixVerse V2上线后,量子位第一时间进行了人肉实测。


进入PixVerse官网,在左侧菜单栏直奔PixVerse V2。


目前它支持文/图生视频两种生成模式,实际操作中可以二者取其一,也可以两个一起上。


文字输入提示词框,图片点击下图黄色框选部分即可上传。



输入框右下角,灰色框选部分,还有个5s/8s的选项,可以根据自己的需求选择生成的单个视频片段的长度。


绿色框选的Scene,指代的是需要生成的具体视频片段。


确实如官方介绍所说,现在至多能添加至生成5个视频,分别是Scene1-5。



所有Scene片段的画面风格都会跟着Scene 1来,即便后面的其他Scene上传了参考图片,PixVerse会参考Scene 1的图片风格进行重绘。


总之,就是想尽一切办法让5段视频保持风格一致。


此外,每个Scene的提示词/提示图片都可以单独输入。


完事儿后就可以点击输入框右下角的星星按钮,进入生成状态。


体验后发现,无论需要生成几个Scene,每次生成都需要花费50 Credits(PixVerse V2的算力货币)


体验过程中,秉承着输入尽可能简单的prompt的原则,咱输入的五段提示词分别是这样的:


  1. 清晨,一只小白兔在床上穿好了衣服
  2. 小白兔走在上班的路上,路过一片花园
  3. 小白兔端着一杯热气腾腾的咖啡
  4. 小白兔端着咖啡,正在排队等电梯
  5. 辞职了的小白兔在路上一蹦一跳的


虽然生成后,可以通过选项对每段视频分别进行微调(调整主体、场景、动作和运镜),但我们没有进行任何干预,主打一个想要原汁原味。



生成结果如下:



考虑到观感,此视频仅针对播放速度,进行2.5倍加速



5个片段是已经拼接好了的,可以直接下载完整版,很方便。


有点搞笑,视频内容里,辞职了的小白兔pia就把工装脱掉了,不带走一点班味。


上手玩到这一步,精打细算如我等打工人,有个绝妙发现,一定要跟大家分享一下:


如果每次只想生成一个视频片段,直接在PixVerse V2的选项调整里,删减到只有Scene 1,就ok——我们称之为办法1。


但还有另一种办法(办法2),通过另一个入口进入PixVerse V2的另外模式。


办公室里问了一圈,如果要生成单个视频片段,大家都更愿意选择后面这种办法。


为啥?


一来,办法2能根据视频比例、视频风格等参数做更多的调整,你给的“想要”的信息越多,那模型就更有可能懂你,生成的视频画面就更可能符合心意。


另一方面,小算盘噼里啪啦一算,办法1一次生成消耗50 Credits,无论是生成1个片段还是5个片段,都得扣这么多;但办法2生成一次,只需要消耗30 Credits。


更省钱啊,朋友们!



快在脑子里拿小本本记好,办法2的操作流程——


点击左侧菜单栏中的Text to Video,然后在“Model”选择 “PixVerse V2”。


就能进行文生视频了。



且通过在提示词中加入“Anime”“Realistic”等词语,可以让生成内容进行风格变换。


整点有难度的,生成一些现实世界没有的场景。输入提示词:


棉花糖巨人在彩色的棉花糖森林里漫步。

生成结果:



好好好,unbelievable,想不到真的可以get到“棉花糖巨人”这么抽象的描述!


盲猜是因为PixVerse V2背后对语义理解进行了显著优化。


类似方法也可以体验图生视频功能


点击左侧菜单栏的Image to Video,在“Model”选择“PixVerse V2”。



小小遗憾,目前PixVerse的图生视频还不能使用前面提到过的运动笔刷。


需要注意的是,目前图生视频还不能使用“涂哪哪动”的运动笔刷(这是爱诗上个月上新的AI视频功能)


量子位向PixVerse V2团队打听到,运动笔刷很快也会上线在V2版本里


之前Runway和PixVerse的运动笔刷都广受好评,因为它弥补了提示词描述的不足,增强了画面的运动可控性等。


如果PixVerse V2上线该功能,想来大家玩起来会更爽,视频中人物/物体的运动也更符合物理规律。



鉴于人物或者动物“走秀”一直都是AI视频秀肌肉的必选项(虽然咱也不知道为啥),这次在体验PixVerse V2图生视频功能时,咱直接上强度,搞了个宇航员在街头跑酷


输入提示图片:



生成结果:



这个任务属于有点叠buff,是基于图片生成非现实内容的动态。


更需要的是背后模型有很强的视觉理解能力


从效果来看,不管是连续视频创作、文生视频还是图生视频,PixVerse V2都能轻松拿下。


最后多提一嘴,不管是文生还是图生,每生成一个5s/8s视频,都需消耗30 Credits。


不过生成速度算比较快,质量也稳定有保障,实际感觉花这30 Credits还算挺值得。


DiT底模更新支持


在号称今年卷王之王的AI视频赛道,爱诗突然放出了不太一样的一招。


当全世界范围内所有的Sora平替在做时长拓展、画质提升和难度降低时,爱诗做的还有狂削门槛


不仅仅是提示词不需要太专业,更重要的是一次能创作(至多)5条视频,每段8秒。


这1到5个视频片段之间,风格、主体、场景的一致性是能够保证的,并且根据每段视频提示词之间的逻辑,最终合成一段40秒左右的长视频。


剧情连贯、内容一致性的那种。


号称“动作流畅、细节丰富”,且画质达到1080p。



也就是说,用户想好自己想要什么,输入提示词,就能坐等生成拥有10s-40s时长不等的视频。


既能在画面中实现“把脑子里的想法搬到视频里”,片段之间连贯自然;还能在视频制作过程中少费时费力,创作效率猛猛提升。


PixVerse V2发布后,很快就有网友用起来了。


比如下面这个,就是网友Steven Eddie专门为了测试体验新产品一致性而创作的小故事片:



Copyright by Steven Eddie


PixVerse V2的出现,让很多没用过AI视频工具,甚至从未制作过视频的人,都能靠它完成生成数量上0到5,作品数量上0到1的突破


AIGC工具的使用权,再一次下放


它带来的AIGC工具用户破圈层(不再局限在专业用户之间)外扩,是靠技术迭代更新来实现的。


PixVerse V2背后,是爱诗科技对DiT架构底层自研模型的迭代更新


这也是PixVerse背后的核心技术。


前情回顾一下,量子位梳理此前爱诗公开资料/王长虎对外演讲发现,最开始,该公司采用过Diffusion+Unet架构的技术路线,这也是Sora问世前的主流AIGC做法,但越往后走,参数扩张、指令复杂,Unet就有点不够用了。


因此,爱诗很早(Sora出现前)开始尝试DiT架构,并沿着Scaling Law来提升模型性能。


车头调转得很早,因此Sora的出现倒没有让爱诗措手不及,反而因验证了路线的正确,爱诗今年的速度明显加快。



那么,这次PixVerse V2的DiT底模有哪些更新?


第一点,在Diffusion时空建模方面。


爱诗独创了一种时空注意力建模机制,且是“更合理的”,它优于时空分离以及fullseq架构。


这种机制对时间、空间的感知力都更好,对复杂场景的处理也更好。


第二点在文本理解方面。


PixVerse V2对于prompt的理解能力显著增强。背后是运用上了多模态模型,能够更好地对齐文本信息和视频信息,让生成结果即创作者所想。


第三,为了获得更高的运算效率,PixVerse V2在传统的Flow模型基础之上,对损失进行了加权,使得模型可以更快更好的收敛。


还有一点,则是PixVerse V2背后,研发团队设计了一个更好的3D VAE模型。


其中引入了时空注意力机制,来提升视频压缩质量;同时采用持续学习技术进一步提升视频压缩及重构结果。



AI加持下“简单有趣”的UGC倾向


AIGC简直是今年最妇孺皆知的话题。


对AIGC进行应用的能力,其实还掌握在少部分人手中,如程序员、设计师等专业人士。


AIGC还没有像UGC那样,进入全民“GC”的阶段。


面对这样的情况,爱诗科技成立一年多以来做的事,可以总结归纳为:


  • 不断提升AI技术能力

  • 扩大“G( Generated)”这个动词的主语群体

  • 兼顾关注“C( Content)”的质量水平。

这一点不仅体现在PixVerse V2上,往前看也是一脉相承——


复盘发现,PixVerse V2的发布,其实已经是今年以来这家公司第三次在AI视频功能和产品上有所动作。


今年1月,爱诗正式发布文生视频产品PixVerse网页版,月访问量迅速突破百万。


4月,发布基于自研视频大模型开发的C2V(Character to Video,角色一致性)功能,网页端可使用。


通过精确提取人物特征,并深度嵌入到视频生成模型中,PixVerse能够锁定角色,初步解决AI视频创作中的一致性难题。


6月,发布Magic Brush运动笔刷,拿它对视频画面涂涂抹抹,能精确控制视频元素的运动及运动方向。


这也是继Runway后,首家发布类似功能的AI视频生成公司。



半年三次,不可谓不频繁,但前两次的动作,似乎都有些低调了。


这或许与创业公司希望潜心打磨作品有关,又或许与王长虎等带队者的低调性格有关,我们不得而知。


但现象就是,很多人知道国产AI视频赛道上,爱诗科技是奔驰在前的头部,却不一定知道它到底为什么是头部,到底好不好用。


现在PixVerses V2一出现,老的少的、专业的非专业的,都可以亲自上手,感受它确实效果整挺好——这也是PixVerse V2上线即爆火的原因之一。


以及回溯种种动作,不难发现,这数次产品能力的上新,都在围绕一个主体:让AI视频创作更实用更简单


同时可以看到,前几次产品能力,重点关注的是专业人士的使用体验。


这也和王长虎此前发言的相互印证,他曾表示:


希望AI原生视频能够融入内容行业的生产和消费链路。

而PixVerse V2就不一样了,这一代产品着重打磨的是,如何让更广大的普通人群都能上手进行AI视频创作。


毕竟,Magic Brush虽然好用、有用,但大前提还是需要用户已经生成了一段AI视频。


而视频prompt比文本生成、文生图的prompt都要难,很多时候都是普通人来玩AI视频生成的拦路虎。


PixVerse V2抓的点就很妙——


从压低提示词难度、选项式微调、拓展生成内容边界、后期免剪辑等各个方面,尽量把AI视频创作成本一压再压。


会得到什么结果呢?


所有人,人人有机会,人人能参与,能把天马行空的脑洞变成看得见的视频作品。


因为能有很强的参与感,因此会有更多人,甚至所有人都能释放创意,参与到AI视频创作当中来。


长期来看,逐渐就能形成AI时代的UGC生态,而且比UGC更简单、更有趣


之前看过有意思的一个meme图,相信不少朋友也见过:



“PixVerse很荣幸‘跪’在了第一排,跟Runway、Pika、SVD等当时最好的视频生成产品放到一起,也是这张图里面唯一一家中国公司。”王长虎本人曾拿着这张图开玩笑,“但另一方面,我们前面有一个巨人,还需要进一步超越它。”


不可否认,AI视频是AI 2.0时代多模态赛道的焦点,尤其是Sora掀起巨浪之后。


所有巨头、大厂、创业公司的十足干劲,都在说明一个问题。


AI视频正在扩宽和激发市场的潜力,AI多模态大模型驱动的创新正在增长。


爱诗能出现在这张meme图上,而且是作为唯一一张登图的中国公司,原因非常明显。


一方面,爱诗科技的模型技术,与自研底模上长出的产品效果,确实受到认可。


另一方面,无论在哪一波科技浪潮中,创业公司都会被全球目光重点关注。


搜索大战时期,谷歌利用创新的网页排名算法PageRank,抢夺雅虎的用户,甚至后来者居上,成为搜索市场至今独占鳌头的那一位。


大语言模型初期,Transformer虽然出自Google,但GPT则是(当时)小型研究机构OpenAI的创举,一步步走到今天的GPT-4o,成为被追逐的对象。


而今天OpenAI的追逐和竞争者中,就有Google的身影。


在任何时候,哪怕面临大厂巨头围攻,创业公司迸发出点燃行业的火花、闪耀星光的故事从不缺席。


爱诗科技正在用技术和产品书写的,就是AI视频赛道,属于创业公司自己的故事。


文章来源于“量子位”,作者“关注前沿科技


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0