国产3D虚拟人版《Her》「杀向」迪拜

4738点击 2024-10-21 10:02

好久没出门，AI产品的世界已经快进到这个样子了？

在全球三大IT展之一的GITEX GLOBAL上，量子位在某个展台，先后体验了和Chatbot聊天、用AI创建属于自己的3D数字人形象、和3D形象实时语言、肢体互动。

也就是说，《Her》有了3D虚拟人版。

国产3D虚拟人版《Her》「杀向」迪拜

旁边的展商过来神神秘秘说了句：

看上去是三个功能体验，但以后，这三个功能在产品里是要合并到一起的。

量子位还没反应过来，展商又补了一句：

创立这些数字形象，是希望以后用户下线后，ta们的数字形象还能接着在社区里帮ta们聊天，减少自己聊聊到不合适的好友浪费时间的情况。

啊……这……我……行吧，有了AI，和人聊天都有预制版了。

如果我说这家展商是个中国公司，也许不少朋友立马能猜出来。

没错，它就是Soul。

量子位在现场拉着Soul的工作人员大聊特聊了一番，其中不仅仅有Soul AI某子板块负责人和他的组员，还被量子位捉到了这家公司的CTO陶明。

△Soul CTO陶明

这么好的机会，那还等什么？体验完展台互动，直接再安排库库一顿聊。

Gitex展会，Soul它Show了啥？

整个Soul的展位上，主要互动区摆着三块体验屏幕。

面向展位从左至右，分别可以体验：

左边屏幕：与自己创建的3D数字人流畅互动

中间屏幕：创建能语音文本对话、多语言交流的逼真3D数字人形象

右边屏幕：和聊天机器人语音或文本聊天

国产3D虚拟人版《Her》「杀向」迪拜

量子位在这个展台前站了很久，发现在此驻足的人，更喜欢体验左边和中间的两个功能。

而且大家去Soul展台体验，仿佛有一个无形的规则，那就是选择先在中间的屏幕前探索Soul的实时3D建模功能。

掰开了讲，那就是现场拍一张体验者的照片，在几秒钟的时间内，通过分析90多个面部形状参数和6个属性参数，快速重建虚拟的面部特征，完成虚拟3D形象的生成。

然后，体验者就可以与3D形象对话了。

国产3D虚拟人版《Her》「杀向」迪拜

但光有语言的交流还不够——

到这个时候，大家就会（不自觉地）挪到左边那块屏幕前面。

屏幕上也是自己创造出的虚拟3D形象。基于实时的人体动作识别、数字还原以及多模态对话交互能力，现场可以实现3D虚拟人与真人的沉浸式互动。

多沉浸呢？由于配备了实时运动跟踪，你可以说一些话or摆动身体、四肢，来与屏幕那头的ta低延迟交互。

国产3D虚拟人版《Her》「杀向」迪拜

值得多提一嘴，得益于Soul自家多模态AI模型在背后的支持，这两个屏幕承载的AI体验，允许语音、文本和物理交互同时进行。

AI社交，场景、模型的认知与感知都很重要

尽管这家公司已经推出了Soul海外版，但参加本次Gitex，其实是Soul在海外展会上的第一次亮相，

“从体验层面来说，海外产品希望给用户端创造更好的粘性。”Soul CTO陶明解释道，“主要还是以Soul这个主平台，来传递我们关于AIGC+社交的概念。”

陶明表示，以他所见，AI+社交这条赛道，无论国内外市场，都要有两个必要条件。

一，是要持续地继续往前发展。

二，是探索的场景和业务，其实现在还不是很明朗。

而Soul拥有的，是「人机对话」这个基础点（或者称为原子能力）。

在Soul的理念中，因为用户和业务之间其实存在鸿沟，所以要做的事不是把原子能力直接推向用户，而是要建一个AI being和Human being共存的社区。

单点的聊天会在这个社区发生，但是社区无法靠单点聊天维持，“大模型六小强做的一些AI聊天产品，都有支持单点聊天的能力，但持续的聊天难以为继，这就是因为任何AI不在场景里，人机单点聊天其实门槛很高。”

Soul更希望打造不同的场景（比如语聊房），利用一些规则和策略，让人和AI在一起社交，过程难辨真人还是AI。

这里的社交不会局限在聊天这一件事情上，AI NPC和真人用户共同做同一件事，也很容易构建彼此之间的链接。

如陶明所说，Soul的AI+社交理念，最基础的一点是“必须要保证人和AI在同一时空下”。类似于现实世界和现实世界的仿真，人和人的仿真对AI和人建立联系非常重要。

“如果只是单纯聊天这件事，不太成立……一定要要发现场景，才能够说能让用户有更好的体验。”

这一方面，Soul是怎么基于理念来设计产品的呢？

举几个例子。

第一个，在人和人、人和AI的交互过程当中去打造更多的场景。

比如用户和AI聊天，你发一张照片让它知道你感冒了，然后就能围绕感冒这个话题继续对话，而不是非要硬找话题。

第二个，和AI语音通话时，它听到你周围的环境音，判断你在咖啡馆或者音乐派对上，话题也能自然而然地展开了。

这就不难理解为什么Soul在大模型方面坚持GPT-4o的方向，因为团队认为一个AI，应当具有统一的感知能力和认知能力。

纯有认知能力，并不能给用户带来价值，因为用户是希望被感知到的。

而o1的方向同样重要，因为o1加强了大模型的认知能力，其实就能给用户带来很好的体验。

社交平台做AI《Her》会有什么不一样吗？

在社交平台这条赛道上，Soul是绝对的头部梯队玩家。很多人不知道的是，它也是国内最早将AI融入社交互动的平台之一。

App上线之初，Soul就开始搭建一些AI能力的基础建设，两个基于AI的引擎。

一个是灵犀引擎，基于Soul用户站内全场景画像的智能推荐系统，通过AI技术，持续挖掘有效特征，通过算法方式提高用户在内容方向的消费和互动体验，提高用户建立关系的效率和质量。

另一个是NAWA引擎，为集AI、渲染与图像处理于一体的集成化SDK，提供AR视频技术、基于多模态感知与驱动的交互技术和基于重建的虚拟形象技术，能够输出包含Avatar表情驱动、美颜美妆、卡通化等数十种图像处理与2D/3D渲染能力的引擎。用它创建的个性化3D头像表现力更强，还能动起来。

2020年（ChatGPT掀起大浪之前），Soul就开始启动对AIGC相关的算法研发工作，并在智能对话、图像生成、语音&音乐生成等方面有了能力积累。

Soul在多模态领域发力很早，2023年Soul就推出自研垂类语言大模型Soul X，垂直应用于平台上多元社交互动场景。

例如智能对话机器人“AI苟蛋”、AI辅助聊天、虚拟陪伴等诸多工具和功能什么的。

国产3D虚拟人版《Her》「杀向」迪拜

△在Soul上开启AI辅助聊天

当时的Soul是这么说的：

AIGC带给社交的不仅仅是交互效率、交互质量和交互体验的提升，同时以智能体和虚拟人为代表的交互对象也在发生变革，这意味着社交出现代际的迭代，社交的范围也会被重新定义，社交产品的形态也在发生改变。

今年，Soul持续开搞“AIGC+社交”。

目标很明确：

在有技术能力基础、有用户实际需求、认准“模应一体”方向的情况下，推动AIGC和社交场景的深度融合。

Soul推出了最新的端到端多模态AI模型，该模型集成了文本、语音和视觉交互，具备超低延迟、声音拟真、情绪感知等特点。

端到端尤其显著地降低了聊天的延迟。

陶明披露，Soul现在的语音对话延迟不到200毫秒，“这不再像以前那样是一个连续的过程，我们首先生成文本和图像，然后将它们转换为语音。现在，我们将语音和 NLP 统一到一个集成流程中，从而消除了滞后问题。”

而同时期的“数字孪生”功能，则允许用户根据过去的交互或自定义设置，创建自己的个性化虚拟版本。

现在，刚刚在Gitex上秀了一把的Soul，又快宣布自己的新进展了。

陶明表示，预计到了11月，平台将推出全双工视频通话能力， Soul的AI NPC就能“看得见了”。

也就是说，下个月，用户们就能在Soul里实时和AI的视频聊天了，对方还是有形象、有表情、有记忆，会对前几天不经意咳嗽过一句的你，说感冒好了没有的那种。

这就很《Her》！

之前国内外很多团队都发过各种版本的《Her》，但这次的期待有所不同——

不是在期待语音是否最逼真、延迟是否最低，口型是否对得最好，而是期待，加入AI元素的社交平台公司，熟谙搞社交那一套，在这个人机交互的产品/功能上，会不会有特别的设计。

不过时间还没到，只有先期待一波咯～

关于Gitex

Soul参加的这个海外展会，GITEX GLOBAL全球三大IT展之一，本周五在阿联酋迪拜落下帷幕。

这是第44届GITEX GLOBAL，不出意外创下新高，规模迄今为止最大：

吸引了超过6500家参展商、1800家初创企业、1200名投资者以及来自180多个国家的政府参与。

国产3D虚拟人版《Her》「杀向」迪拜

连迪拜王室也组团莅临现场视察……

这阵仗，让本来就肩膀挨着肩膀的场馆现场更是水泄不通了。

国产3D虚拟人版《Her》「杀向」迪拜

尽管如此，量子位还是拿出go shopping的激情，在二十几个展馆里一个挨一个地认真逛。

终于，不仅打卡了很多中国企业出海来参展的展台，比如阿里、华为、腾讯、涂鸦智能、普渡机器人等等；

也看到了全球范围内很多AI公司的身影出现在现场，比如英国AI独角兽Builder.ai（对没错，背后微软支持，但创始人一直官司不断的那家）、中国的智谱华章等。

当然，如果对电子方面感兴趣的朋友们，一定会逛得更快乐，现场连表情最丰富的机器人阿美卡和小鹏的飞行汽车都有，还有很多没太看明白设计（但中东土豪们肯定喜欢）的飞行器。

国产3D虚拟人版《Her》「杀向」迪拜

不简单啊不简单。

文章来自于微信公众号“量子位”，作者“衡宇”

国产3D虚拟人版《Her》「杀向」迪拜

关键词: AI , AI视频 , Soul , Soul AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI 3D建模

【开源免费】LGM是一个AI建模的项目，它可以将你上传的平面图片，变成一个3D的模型。
项目地址：https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用：https://replicate.com/camenduru/lgm

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales