霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

12585点击 2024-06-17 23:26

一张人像、一段音频参考，就能让霉霉在你面前唱碧昂丝的《Halo》。

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

一种名为Hallo的研究火了，GitHub已揽星1k+。

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

话不多说，来看更多效果：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

01:30

不论是说话还是唱歌，都能和各种风格的人像相匹配。从口型到眉毛眼睛动作，各种五官细节都很自然。

单独拎出不同动作强度的比较，动作幅度大也能驾驭：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

单独调整嘴唇运动幅度，表现是这样婶儿的：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

有不少网友看过效果后，直呼这是目前最好的开源口型同步视频生成：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

这项工作由来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。

团队提出了分层的音频驱动视觉合成模块，将人脸划分为嘴唇、表情和姿态三个区域，分别学习它们与音频的对齐关系，再通过自适应加权将这三个注意力模块的输出融合在一起，由此可以更精细地建模音视频同步。

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

Hallo长啥样？

如前文所述，Hallo通过使用参考图像、音频序列以及可选的视觉合成权重，结合基于分层音频驱动视觉合成方法的扩散模型来实现。

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

整体架构是这样婶儿的：

参考图像经过一个ReferenceNet编码全局视觉特征；人脸编码器提取身份相关的特征；音频编码器将输入语音转换为与运动相关的特征表示；分层音频驱动视觉合成模块用于在唇部、表情、姿态三个层次建立音视频的关联；最后通过扩散模型中的UNet完成去噪，生成视频帧。

扩散模型主干网络（Diffusion Backbone）

采用Stable Diffusion 1.5作为基础架构，包括三个主要部分：VQ-VAE编码器、基于UNet的去噪模型、条件编码模块。与传统的文本驱动扩散模型不同，Hallo去掉了文本条件，转而使用音频特征作为主要的运动控制条件。

参考图像编码器（ReferenceNet）

ReferenceNet用于从参考图像中提取全局视觉特征，指导视频生成过程的外观和纹理。结构与扩散模型的UNet解码器共享相同的层数和特征图尺度，便于在去噪过程中融合参考图像特征。在模型训练阶段，视频片段的第一帧作为参考图像。

时序对齐模块（Temporal Alignment）

Temporal Alignment用于建模连续视频帧之间的时间依赖关系，保证生成视频的时序连贯性。从前一推理步骤中选取一个子集（例如2帧）作为运动参考帧，将其与当前步骤的latent noise在时间维度上拼接，通过自注意力机制建模帧间的关联和变化。

此外，分层音频驱动视觉合成方法是整个网络架构的核心部分。

其中人脸编码器，使用预训练的人脸识别模型，直接从参考图像提取高维人脸特征向量；音频编码器使用wav2vec模型提取音频特征，并通过多层感知机映射到运动特征空间，由此可以将语音转换为与面部运动相关的特征表示，作为视频生成的条件。

之后再将音频特征分别与唇部、表情、姿态区域的视觉特征做交叉注意力，得到三个对齐后的特征表示，再通过自适应加权融合为最终的条件表示。

该方法还可以通过调节不同区域注意力模块的权重，来控制生成视频在表情和姿态上的丰富程度，可适应不同的人物面部特征。

Hallo表现如何？

之后研究团队将Hallo与SadTalker、DreamTalk、Audio2Head、AniPortrait等SOTA方法进行定量和定性比较。

用HDTF和Bilibili、Youtube等来源的数据构建了一个大规模人像视频数据集，经过清洗后用于训练。

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

评估指标方面，采用FID、FVD评估生成视频的真实性，Sync-C、Sync-D评估唇形同步性，E-FID评估生成人脸的保真度。

定量评估方面，在HDTF数据集上，Hallo在多个指标上表现最优：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

在增强唇部同步的同时，Hallo保持了高保真视觉生成和时间一致性：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

在CelebV数据集上，Hallo展示了最低的FID和FVD以及最高Sync-C：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

可视化比较如下：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

在自建Wild数据集上，Hallo同样表现突出：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

针对不同数据集的定性比较结果如下。

Hallo展示了对不同风格人像的驱动生成能力，体现了该方法的泛化和鲁棒性：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

同时展示了对不同音频的响应能力，能够生成与音频内容契合的高保真视频：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

与其它方法对比，Hallo展示了更丰富自然的表情和头部运动：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

通过特定人物数据微调，展示了该方法捕获人物特征、个性化生成的能力：

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

最后研究人员还进行了消融实验，并总结了该方法的局限性，比如在快速运动场景下时序一致性还有待提高，推理过程计算效率有待优化等。

此外，经作者介绍，目前Hallo仅支持固定尺寸的人像输入。

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

且该方法目前也不能实现实时生成。

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

针对这项研究，也有网友提出Deepfake隐患，对此你怎么看？

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

参考链接：

[1]https://fudan-generative-vision.github.io/hallo/#/

[2]https://github.com/fudan-generative-vision/hallo

[3]https://x.com/JoeSiyuZhu/status/1801780534022181057

[4]https://x.com/HalimAlrasihi/status/1802152918432334028

文章来源于：微信公众号量子位，作者：西风

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

关键词: AI , AI霉霉 , AI数字人 , AI虚拟人 , Hallo

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner