阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!
8268点击    2025-12-11 15:07

2025 年 12 月,由 阿里巴巴 联合 中国科学技术大学、浙江大学等机构共同研发的实时虚拟人项目 LiveAvatar 正式对外开源。该项目聚焦长期困扰虚拟人行业的两大技术瓶颈——“实时响应能力”与“长时稳定生成能力”,首次在同一系统中实现了二者的工程级统一。


阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!


从公开信息来看,LiveAvatar 并非面向短视频或单次生成场景的展示型模型,而是直接锚定直播、在线交互、长时间虚拟主持等连续运行场景,其技术路线和系统架构均围绕“工业级可用性”展开。


一、项目定位:面向实时交互场景的虚拟人引擎


与传统以“离线渲染”为主的虚拟人方案不同,LiveAvatar 的核心目标是构建一个可持续运行的实时虚拟人系统。项目从一开始就围绕三个关键指标进行设计:


  • 实时生成能力
  • 连续长时输出能力
  • 画面与口型的高一致性


阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!


在此基础上,团队选择以 140 亿参数扩散模型 作为视觉质量的主干框架,通过系统级并行优化,使其具备实时运行的可能性。


二、技术路径:在高画质与实时性之间建立平衡


长期以来,虚拟人领域普遍存在一个矛盾:


  • 模型越大,画质越好,但生成越慢;
  • 若追求实时性,则往往牺牲表现细节。


LiveAvatar 采用的解决路径是“算法蒸馏 + 系统并行”协同设计:


先通过蒸馏技术,将原本需要大量采样步骤的扩散推理流程压缩至 4 步采样即可完成稳定生成,在模型层面显著降低计算负担;


同时在系统层面引入 时间步流水线并行与分布式推理框架,使多个生成阶段在不同 GPU 之间并发执行。


根据公开测试数据,在 5 张 H800 GPU 的配置下,LiveAvatar 可稳定达到 约 20 FPS 的端到端生成速度,已满足实时视频播放的基础要求。


阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!


三、实时交互能力:虚拟人进入“即时响应”阶段


与以往“音频输入完成后再统一生成视频”的方式不同,LiveAvatar 采用流式生成机制


  • 音频输入过程与视频生成同步进行
  • 口型、表情、头部动作在音频播放的同时实时生成
  • 交互延迟控制在接近人眼不可感知的范围


这种模式下,虚拟人不再是“回放式响应”,而是具备类似真人的即时反馈能力,使其可直接用于:


  • 实时直播
  • 视频会议
  • 在线讲解
  • 虚拟客服


虚拟人开始具备“可对话”的基础条件。


四、超长视频生成:突破传统模型的长度极限


除实时交互外,LiveAvatar 的另一项关键突破在于对长时视频生成稳定性的系统性解决。


项目采用 块级自回归(Block-wise Autoregressive)机制,将视频拆分为多个连续片段逐步生成,再通过时序一致性约束进行拼接。该方式避免了传统长序列建模中显存与上下文窗口不断膨胀的问题。


在公开测试中,系统已实现 10,000 秒以上(约 3 小时)的连续稳定生成,期间身份一致性、画面质量与口型同步指标均保持平稳。这意味着虚拟人首次具备支撑“多小时连续直播”的技术基础。


五、角色泛化与场景适配能力


从已披露的模型能力来看,LiveAvatar 并不局限于单一风格人像:


  • 支持写实真人风格
  • 支持卡通与虚拟偶像形象
  • 可适配演讲、唱歌、教学、技术讲解等多种动作模式


阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!


这种泛化能力主要来自于多模态大规模训练数据与细粒度动作建模的结合,使模型不再只是“驱动一张脸”,而是具备完整的表情—口型—动作协同能力。


六、部署形态:面向数据中心级应用


从项目公开的运行要求可以看出,LiveAvatar 当前仍定位于算力密集型系统


  • 推荐 GPU:5×H800(单卡 80GB 以上显存)
  • 运行环境:Python 3.8+、PyTorch 2.0+、FFmpeg
  • 权重发布于 Hugging Face 平台


同时项目提供基于 Gradio 的可视化交互界面,支持通过“参考图像 + 音频驱动 + 文本提示”快速生成虚拟人视频,便于开发者进行验证和二次开发。


七、行业意义:虚拟人从“内容工具”走向“实时基础设施”


从技术成熟度和工程形态来看,LiveAvatar 的开源并不仅是一次模型发布,更体现出虚拟人技术从“内容生产工具”向“实时数字基础设施”的转变趋势:


  • 在直播电商领域,可支撑 24 小时无间断虚拟主播
  • 在在线教育领域,可用于长期稳定的虚拟讲师
  • 在元宇宙与数字交互场景中,可作为标准化实时角色引擎
  • 在政务、企业服务中,可构建实时虚拟客服体系


其“实时 + 长时稳定 + 高画质”三要素的同时成立,使虚拟人开始具备替代部分真人出镜场景的可行性。


八、后续规划:向更低门槛形态演进


根据项目路线图,LiveAvatar 后续还将逐步支持:


  • 单 GPU 推理
  • 多角色快速切换
  • 文本转语音(TTS)一体化
  • 更低部署门槛的企业级方案


这意味着该项目未来将从“超算级实验系统”,逐步过渡到“实际可规模化落地的虚拟人平台”。


结语


从当前披露的信息来看,LiveAvatar 的技术价值不在于某一个单点指标的领先,而在于首次在同一系统中,将实时性、长时稳定性与高画质三者同时整合,并以开源形式对外开放。这也标志着虚拟人技术,正在从“单点能力突破”走向“可长期运行的工程级系统阶段”。


项目主页:https://liveavatar.github.io

GitHub:https://github.com/Alibaba-Quark/LiveAvatar


文章来自于“赛凡智云”,作者 “赛凡智云”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales