当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测
7988点击    2025-10-13 11:36

国庆假期Sora 2的横空出世那叫一个吸睛,尤其是客串(Cameo)功能,直接把Sora拉到了“AI版抖音”的高度。


但有一说一,在国内,这个玩法早就已经有了。


我们先上传一张奥特曼的照片,来感受下最近比较火的秒变风格的视频:


奥特曼在房间关上灯,画面瞬间变成漫画风格。


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


这个功能叫做参考生,来自Vidu,模型选择的是Vidu Q2。实际上Vidu 去年9月就在全球首个提出【参考生】视频功能,Vidu Q2已经是其参考生视频的第5个迭代版本了。


而同样的提示词给到Sora 2,它生成的效果是这样的:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


可以看到,Sora 2并没有get到我们提示词里的“关灯”,而是选择碰了一下门把手,并且视频开头也是较为昏暗。


(虽然语义理解不佳,但Sora 2的优势是音视频可以一锅出。)


而且剧透一个好消息,据说在这个月底,Vidu Q2参考生视频还会迎来重大的更新。


我们已经拿到了内测资格,因此,按照老规矩,一波实测,走起~


Vidu Q2参考生视频 PK Sora2


Vidu Q2的参考生功能,从操作角度来看,一大优势就是可以上传多张图片(参考图可以多达7个),然后一句话让它们直接联动起来,像这样:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


对生成视频的结果,我们还可以选择时长、清晰度、宽高比和一次生成视频的数量等:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


从这个角度来看,参考生在操作上确实是要比Sora 2要灵活得多。


那么接下来,我们就进一步从不同维度来一场PK。


Round 1:一致性大比拼


毕竟一致性是视频生成领域一直以来的一大痛点,因此第一轮的比拼,咱们就来看看它俩是否能做到前后一致。


有请金牌销售——奥特曼:


奥特曼介绍一下图中的包包。


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


可以看到,Vidu Q2在生成视频的过程中,无论是包包还是人物,全程没有异常的变化。


并且放大图片做对比,包包各处拼接的颜色也是与原图高度相符


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


同样的Prompt,我们再来“喂”给Sora 2,依旧是让奥特曼来介绍:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


Sora 2依旧的优势在于奥特曼说着中文介绍着这款包包,但……


最基本的一致性却没有保持住,甚至包包各处的颜色都已经变了样,连包带儿都时而三条时而两条。


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


整体来看,一致性这块儿,Vidu Q2可以说是完胜了。


Round 2:物理规律遵循


除了一致性之外,另一个考量AI视频生成好坏的因素,就要属遵循物理规律了。


接下来,我们来上一点难度,参考图是这样的:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


这张图的难点显而易见,就是考验大模型们是否能精准的按照物理规律,把舞者在镜中各个角度的姿态表现出来。


Vidu Q2请听题:


图中的女子在图中的舞蹈房内,从图片中的动作开始,翩翩起舞,动作流畅一致,镜面反射出舞蹈全景,镜头缓慢环绕捕捉舞蹈细节。


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


毕竟这道题目的难度系数较高,虽然还是有一点细节出错,但Vidu Q2参考生整体的表现还算是不错。


但到了Sora 2这里,“华点”就有点多了。


首先还是老问题,不允许上传包含写实人物的图像;于是,我们便替换成了一张动漫的人物:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


结果……动漫人物依旧是无法生成……索性我们就直接用文字Prompt去生成:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


从最终的结果来看,能看清的人物(包括镜面里)有3位,整体完成度较高;配上了音乐也是比较加分(虽然最后误闯进一位摄影师)。


整体来看,在遵循物理规律方面,两位选手可以说是各有亮点。


Round 3:运镜哪家强?


最后,在一致性和物理规律之后,AI视频生成中运镜的使用,也是非常加分的一点。


这次的参考图是这样的:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


运镜方面,我们分了三段Prompt:


0-1s镜头1,头发飘扬,拉开弓,超近特写,背景是黑暗森林闪着奇幻的光,箭射出去。切镜头。


1-6s镜头2,黑暗游拿着弓在黑暗森林里快速跑动跳跃,镜头自由跟随,特写全身自由切换,在树林中穿梭,急速大幅度不断跳跃,闪烁。切镜头。


6-8s镜头3,一个旋转镜头环绕人脸慢动作特写,露出邪魅的笑容。


首先是Vidu Q2的表现:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


如何?是不是有动漫片段的效果了?


镜头是仅仅跟随人物,从近景到远景再到拉近,可谓是一气呵成。


接下来是Sora 2的表现:


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测


可以明显看到,Sora 2生成的切镜会更多,而Vidu是一镜到底的跟随运镜。


因此,这一轮,两者各有优势,Vidu Q2 参考生更符合日常动漫中镜头运镜语言,Sora 2的不停切镜则渲染了紧张的氛围。


中美视频生成PK,已经来到了Next Level


通过以上几个维度的实测,我们可以清晰地看到当前AI视频生成领域的发展现状 。


在这次Vidu Q2参考生视频与Sora 2的直接PK中,两者几乎打了个平手。


Sora 2在音视频同步输出方面具备优势 ,但在更关乎视频内容核心质量的维度上,Vidu Q2参考生视频展示了其独到的处理能力。


不过有一说一,这场比拼的意义远不止于评判两个模型孰优孰劣,它更揭示了行业未来的走向正逐渐被实际应用的需求所定义 。


AI视频技术能否成功的关键,在于它是否能从一个仅能生成惊艳片段的玩具,转变为一个能无缝融入创作者工作流的生产力工具 。


当下的创作者需要的不仅仅是随机、不可控的创意火花,而是能够精确执行指令、稳定复现角色的可靠伙伴。


这正是一致性等功能所具备的战略价值 。保持角色和场景、道具的一致,是实现AI短剧、AI数字人广告乃至虚拟偶像IP等一系列商业应用的基础 。


如果每一次生成的人物都面目全非,那么任何形式的叙事都无从谈起。Vidu Q2参考生视频在此处的深耕,本质上是在尝试解决AI视频工业化生产的核心难题。


即将技术转化为可规模化、可商业化的稳定产出 。


从这个角度看,构建真正的“AI版抖音”,比拼的也绝非单一的视频生成效果 。这个战场是一个包含了从创意构思到内容生成、再到精细化编辑、分发与商业化的完整生态。


当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测

创作者@陈畅用Vidu Q2参考生制作的短片


在生态方面,Vidu 目前基于产品矩阵构建了主体库共享生态,商业化生态,创作者生态等,核心模型产品驱动的完整生态才是其最大的竞争壁垒。


因此,这场技术竞赛不仅是中美顶级模型之间的一次较量,更应该被视为AI视频生产力革命的序章 。


无论是Sora 2还是Vidu Q2,它们的快速迭代都在推动着技术的成熟和成本的降低 。


One More Thing


正如我们在最开始预告的,Vidu Q2参考生视频要在这个月底有一波重大的更新。


据悉Vidu Q2 参考生不仅能支持专业半专业用户群体的真实需求,同时也能完全满足广告电商、影视动漫短剧、互动娱乐等商业领域客户的更高要求,此外,使用体验也将对C端用户非常友好。


我们可以大胆猜测一波,生数科技Vidu这次是否也要将音频的模态容纳进来呢?


Vidu Q1体验地址:

https://www.vidu.cn


文章来自于“量子位”,作者“金磊”。

关键词: AI新闻 , AI视频 , Vidu Q2 , Vidu
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales