ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”
8922点击    2024-04-19 11:21

AI伪造真人视频,门槛再次降低。


微软发布一张图生成数字人技术VASA-1,网友看过直呼“炸裂级效果”,比“AI刘强东还真”。



做到以假乱真效果,不用针对特定人物训练,只要上传一张人脸图片、一段音频,哪怕不是真人也行


比如可以让蒙娜丽莎唱Rap,模仿安妮海瑟薇即兴吐槽狗仔队名场面。


在项目主页还有更多1分钟视频,以及更更多15秒视频可看。


不同性别、年龄、种族的数字人,用着不同的口音在说话。



根据团队在论文中的描述,VASA-1拥有如下特点:

  • 唇形与语音的精准同步


这是最基本的,VASA-1在定量评估中也做到了顶尖水平。

  • 丰富而自然的面部表情


不光做到让照片“开口说话”,眉毛、眼神、微表情等也跟着协调运动,避免显得呆板。

  • 人性化的头部动作


说话时适当的点头、摇头、歪头等动作,能让人物看起来更加鲜活、更有说服力。


总得来说,仔细看的话眼睛还有一些破绽,但已经被网友评为“迄今为止最佳演示”



然而更恐怖的是,整个系统推理速度还是实时级的。


生成512x512分辨率的视频,使用一块英伟达RTX4090显卡就能跑到40fps。


那么,VASA-1是如何做到这些的呢?


大关键技术,Sora同款思路


一句话概括:


不是直接生成视频帧,而是在潜空间中生成动作编码,再还原成视频。


是不是和Sora的思路很像了?


其实VASA-1的模型架构选择Diffusion Transformer,也与Sora核心组件一致。



据论文描述,背后还有3大关键技术:



人脸潜编码学习,这部分是高度解耦的。


团队从大量个真实的说话视频中,学习到一个理想的人脸特征空间。


把身份、外观、表情、姿态等因素在隐空间里剥离开。这样一来,同一个动作就能驱动不同的脸,换成谁都很自然.



头部运动生成模型,这部分又是高度统一的。


不同于之前的方法分别建模嘴唇、眼神、眉毛、头部姿态等局部动作,VASA-1把所有面部动态统一编码,用Diffution Transfromer模型,也就是SORA同款核心组件,来建模其概率分布。


这样既能生成更协调自然的整体动作,又能借助transformer强大的时序建模能力,学习长时依赖。


比如给定一组原始序列(下图第一列),最终可以做到:


  • 用原始头部姿态,改变面部表情(第二列)
  • 用原始面部表情,改变头部姿态(第三列)
  • 用原始面部表情,生成全新的头部姿态(第四列)



最后是高效率推理


为了实现秒实时合成,团队对扩散模型的推理过程进行了大量优化。


此外,VASA-1还允许用户输入一些可选的控制信号,比如人物的视线方向、情绪基调等,进一步提升了可控性。



AI造假成本越来越低了


被VASA-1效果震惊过后,很多人开始思考,把AI数字人做到如此逼真,发布这样一个技术真的合适吗?





毕竟用AI伪造音频视频诈骗的例子,我们已经见过太多。


就在2个多月前,还有一起假冒公司CFO开视频会议,直接骗走1.8个亿的案件发生。


微软团队也意识到了这一问题,并作出如下声明:


我们的研究重点是为数字人生成视觉情感,旨在实现积极的应用。无意创建用于误导或欺骗的内容。
然而,与其他相关内容生成技术一样,它仍然可能被滥用于模仿人类。
我们反对任何创造真实人物的误导性或有害内容的行为,并且有兴趣应用我们的技术来推进伪造检测……


目前VASA-1只发布了论文,看来短时间内也不会发布Demo或开源代码了。


微软表示,该方法生成的视频仍然包含可识别的痕迹,数值分析表明,距离真实视频的真实性仍有差距。


不上专业评估手段,肉眼看的话,仔细挑刺或直接对比真人视频,确实也能发现目前VASA-1演示视频中的一些瑕疵。


比如牙齿偶尔会变形。




以及眼神还不像真人那么丰富。(眼睛确实是心灵的窗户啊)



但是以“AIGC一天,人间一年”的进步速度来看,修复这些瑕疵恐怕也不用很久。


以及你能保证每时每刻都保持警惕分辨视频真假么?


眼见不再为实。默认不相信任何视频,成了很多人今天做出的选择。



不管怎么样,正如一位网友总结。


我们无法撤销已经完成的发明,只能拥抱未来。


01:13


文章来自微信公众号”QbitAI“,作者 量子位


关键词: 微软数字人 , sora , VASA-1 , 微软AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales