还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗?现在,它迎来了史诗级进化!
近日,快手可灵团队正式发布了 KlingAvatar2.0 技术报告,这一次,数字人不仅能 "表演",更能 "生动表达"—— 它们将拥有更丰富的情感层次、更精准的多角色互动,对复杂文本指令的深度理解能力,以及支持长达 5 分钟的视频生成。目前该模型已经在可灵平台全量上线,人人都可体验!
首先看一下效果,肢体灵动、表情逼真,生动性拉满!



让我们拆解技术报告,看一下可灵团队是如何实现如此生动效果的。
1. 时空级联框架:长视频不再 "虎头蛇尾"
想象一下,你正在制作一个 5 分钟的产品介绍视频,但传统的 AI 生成工具总是在第 2 分钟后就开始 "崩坏"—— 画面变得模糊,人物动作开始不连贯,甚至连口型都对不上了。KlingAvatar2.0 创新性地提出了时空级联框架:

KlingAvatar 2.0 方案框架。该方案快速勾勒出一个低分辨率的 "分镜脚本"(蓝图视频),确定整个故事的走向和关键动作节点;然后,它会像精雕细琢的艺术家一样,逐步将这些关键帧升级为高清画面,确保每个细节都栩栩如生;最后,通过并行处理技术将这些精心打磨的片段无缝拼接成完整的长视频。
2. 共推理导演:多模态指令的 "智慧大脑"
KlingAvatar2.0 的共推理导演系统就像是给数字人配备了一个专业的导演团队。这个系统由三位 "AI 专家" 组成,它们会像真正的电影制作团队一样密切协作:
这三大专家通过多轮对话协作,能够解决模态冲突(比如愤怒语气配中性脚本),将模糊的指令转化为详细的镜头级故事线。
3. 多角色精准控制:每个数字人都有自己的 "声音"
在传统的多角色视频中,一个常见的问题是 "张冠李戴"—— 明明是给 A 角色的音频,结果 B 角色的嘴也在动。这种混乱让观众瞬间出戏,破坏了整个视频的沉浸感。KlingAvatar2.0 通过身份特定多角色控制技术,让每个数字人都能 "各司其职":

(a) KlingAvatar2.0 基于 DiT 深层 block 特征预测指定角色在视频中每一帧画面的位置,控制音频精确驱动该位置的角色。(b) 可灵团队基于 Yolo、DWPose、SAM2 等模型构造了数十万条高质量多人数据用于训练。
如果说 KlingAvatar1.0 让数字人学会了 "表演" 的基本功,那么 2.0 版本则让它们真正拥有了 "演技"。生动性方面:

KlingAvatar2.0 与 Heygen、OmniHuman-1.5、KlingAvatar1.0 相比有更优异的性能。
在涵盖 300 个高质量测试案例的严格评测中,KlingAvatar2.0 展现出了令人瞩目的性能:

KlingAvatar 2.0 与基线方法的定性比较。左图:KlingAvatar 2.0 能够生成更自然的头发动态效果和更生动的面部表情。中图:KlingAvatar 2.0 更符合指定的自下而上的摄像机运动。右图:KlingAvatar 2.0 的结果与提示 “…… 转身面向前方,双手交叉放在胸前” 更加吻合
回顾整个数字人技术的发展历程,我们可以清晰地看到一个进化轨迹:从最初的 "嘴唇蠕动",到后来的 "表情同步",再到现在的 "生动表演",每一次突破都让虚拟角色离 "真实" 更近一步。
KlingAvatar2.0 不仅仅是一次技术升级,它也代表了 AI 在理解人类表达艺术方面的一次飞跃。这项技术让机器更好地理解了什么是 "表演"—— 它不仅仅是机械地执行指令,而是要在理解音频情感、视觉语境和文本意图的基础上,创造出能够触动人心的视听体验。
放眼到行业,数字人技术的持续迭代,也推动着行业创作门槛的降低、制作标准的提升,在电商直播、娱乐内容制作、在线教育、企业服务等诸多领域,数字人的规模化应用已成趋势。
生成效果的大幅提升,长内容场景的全覆盖,都让我们更加确信:技术不再是冰冷的工具,而是真正成为了表达创意、传递情感的温暖载体。在这个技术与艺术完美融合的新时代,准备好让你的创意 "活" 起来了吗?
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales