字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

9407点击 2024-12-24 15:44

本文作者来自字节跳动智能创作数字人团队，介绍了名为「INFP」的交互式人像生成技术。利用该技术生成的智能体能像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。

在大语言模型和 AIGC 的热潮下，科研人员对构建「视觉对话智能体」（Visual Chat Agent）展现出极大兴趣。其中，可实时交互的人像生成技术（Audio-Driven Real-Time Interactive Head Generation）是实现链路中极为关键的一环。它确保了在与用户的多轮对话过程中，智能体形象能够像真人一样提供自然、逼真的行为和视觉反馈，令用户获得沉浸式的交互体验。

之前的人像生成 / 驱动技术大多面向的是对话场景中的「单一方向交互」，如：说话人像生成（Talking Head Generation）或倾听人像生成（Listening Head Generation），因此无法直接应用于智能体的构建。近期陆续有一些工作开始关注研究交互式的人像生成，但它们都需要显式地指定「说话」或「倾听」的状态，且无法像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。

近日，字节跳动提出了一套面向二元对话场景的交互式人像生成技术 INFP，该方案仅需输入一段双轨对话音频（分别来自智能体本身和对话伙伴的说话内容），即可实时驱动单张肖像照片生成相应的对话视频，且能够在多轮对话中生成自然的人物行为和反馈，例如表情、眼神、口型、姿态变化以及流畅的说话 - 倾听状态切换。

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

论文链接：https://arxiv.org/pdf/2412.04037
项目网页：https://grisoon.github.io/INFP

技术方案

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

INFP 包含 2 个阶段：

1. Motion-Based Head Imitation：在第一阶段，模型从大量对话视频中学习如何提取对话时的交互和运动行为，包括非语言动作（non-verbal motion）和语言动作（verbal motion），并将其映射到运动隐空间（motion latent space）。映射后的运动编码（motion latent code）可以用来驱动肖像照片，生成相应的视频。一个好的运动隐空间应该具备高度的解耦性，即头部姿势、面部表情和情绪应该与外观完全解耦。为此，文章提出对输入图像进行面部结构离散化和面部像素遮罩处理。

2. Audio-Guided Motion Generation：在第二阶段，模型将双轨对话音频输入映射到第一阶段预训练的运动隐空间，以获得相应的运动潜码。该部分由一个交互运动引导模型（Interactive Motion Guider）和一个条件扩散模型（Conditional Ddiffusion Transformer）组成。前者将来自智能体及其对话伙伴的音频作为输入，从可学习的记忆库（Learnable Memory Bank）中检索语言和非语言动作，以构建交互式动作特征。后者利用交互式运动特征作为条件，与其他信号一起通过去噪生成运动潜码。

实验结果

在实验章节中，文中从多个方面详细对比了 INFP 和其它市面上 SOTA 方案，以此来证明该方法的有效性。

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

此外，文中页分别对比了 INFP 和 Talking Head Generation 以及 Listening Head Generation 方法，以此证明该方法在「单一交互」场景中的生成效果依然可以做到 SOTA。

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

效果展示

动作多样性效果展示

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

非真人效果展示

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

即时交互 demo 效果展示

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

安全说明

此工作仅以学术研究为目的，会严格限制模型的对外开放和使用权限，防止未经授权的恶意利用。

团队介绍

字节跳动智能创作数字人团队，智能创作是字节跳动 AI & 多媒体技术团队，覆盖了计算机视觉、音视频编辑、特效处理等技术领域，借助公司丰富的业务场景、基础设施资源和技术协作氛围，实现了前沿算法 - 工程系统 - 产品全链路的闭环，旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术，丰富智能创作内容生态。

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

文章来自微信公众号“机器之心”

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

关键词: AI , 视觉对话智能体 , INFP , 字节AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales