不知道从何时起,脑海里就有着阶跃星辰的多模态能力遥遥领先的印象。
无论去哪旅游,以前是用谷歌地图,现在基本都用「跃问」,看到长得奇特的建筑就拍来问问,还能跟 AI Chat 一下历史。
这不,最近来新加坡出差了,顺便旅旅游,就又用上了「跃问」。
但这不是重点,重点是我在跃问网页端,发现了一个标记为 new 的这个东西。
不看不知道,一看吓一跳,出现了,是「跃问视频」🤩
看来阶跃悄咪咪就把视频生成模型放出来了。我看了下,跃问 App 里和阶跃星辰官网上还没有
https://yuewen.cn/videos
于是特工们去打听了一圈,原来阶跃星辰 Step-Video 视频生成模型 V1 版本已经开启了内测,部分视频生成领域的头部创作者已经率先参与了测试。
我们寻思,之前阶跃的 Step 系列的语言大模型、视觉理解大模型都算是“模”中龙凤,那么搞 AI 视频生成,也应该会艳压群“模”?🤔
于是,依托超强的线索挖掘能力与人脉,特工们也是搞到了一个测试账号😎
我们测试发现,Step-Video 目前支持文生视频,支持生成 1080P 最长达 10s 的高清视频。
美中不足的就是生成速度较慢,平均一条需要 2.5 min.
此外,「跃问视频」还有三个优势。
自动优化提示词。
你是否还在像我一样,每次输入 Prompt 还是零星几个词,或是每次都要去收藏夹复制那堆描述?
跃问一键直接帮你详细地润色好,比如当我输入“美丽的特工少女”👇
美学风格在中国风题材上表现较为突出。
之前尝试过的视频生成模型,对于一些中国元素的呈现效果欠佳。但是「跃问视频」实现的效果还是不错的!
比如这个在照镜子的身穿旗袍的女子,人物脸部稳定,镜子内外的装束和头部动作完全一致,神态也基本统一。就是绿色手镯没表现出来,瑕不掩瑜。
拿着江南油纸伞的古装女子,眼波流转中的温婉大方,以及背景中不羁的狂草书法,都拿捏到位了。
空山新雨后,天气晚来秋。明月松间照,清泉石上流。输入一句古诗词,跃问视频可以精准理解语义并生成符合古诗意境的内容。让人想起阶跃之前发布的语言大模型 Step-2,有个特色能力也是古诗内容创作能打,可能是既有模型能力的延续。
在运动控制上表现较为优异。
不知道宝子们有没有刷到过类似的短视频,由于目前 AI 还比较难理解人类的体育运动,所以经常会生成一些抽象的东西😇
AI 很难充分理解动作的内在规律,常常出现动作突变和不连贯的问题。这种问题在处理长时间范围内发生的变化时尤为明显。
AI 视频内容创作圈内有言:运动是视频生成领域皇冠上的明珠,因为它最具挑战性。
要生成符合物理运动的规律的视频,意味着空间位置透视关系、不同物体相互作用并在碰撞中产生形态变化等等细节都要处理到位,而这不仅需要大量训练数据,还需要模型对语义有极深度的理解。
因此人类和物体大幅度运动的生成效果,也成了当下流行的检验一个视频生成模型效果方式。
我们用运动类 Prompt 对跃问进行了轮番轰炸。诚然,开盲盒得到的效果并非都十全十美,但也惊喜到了我们。
比如这个射箭的视频,运动员动作流畅而精准,清晰地展示了每一个动作细节,从拉弓到射箭一气呵成。
毛茸茸的绿色小怪兽从屏幕中一跃而出,在模拟现实物理世界的空间位置关系上,「跃问视频」表现得也不错。
还有 duangduang 干啤酒的蒙娜丽莎,动作连贯顺畅,啤酒的泡沫和酒瓶与手之间的空间透视关系也处理得不错。
在写这篇稿子的同时,特工们还收到另一个情报—— Step-Video 的下一个版本也已经在路上了!
好家伙,你小汁,在其他家都在大力投放抓人眼球的时候,已经悄咪咪开卷下一代是吧。
文章来自微信公众号“特工宇宙”,作者“特工少女”