ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
国产3D虚拟人版《Her》「杀向」迪拜
2449点击    2024-10-21 10:02

好久没出门,AI产品的世界已经快进到这个样子了?


在全球三大IT展之一的GITEX GLOBAL上,量子位在某个展台,先后体验了和Chatbot聊天、用AI创建属于自己的3D数字人形象、和3D形象实时语言、肢体互动。


也就是说,《Her》有了3D虚拟人版



旁边的展商过来神神秘秘说了句:


看上去是三个功能体验,但以后,这三个功能在产品里是要合并到一起的。


量子位还没反应过来,展商又补了一句:


创立这些数字形象,是希望以后用户下线后,ta们的数字形象还能接着在社区里帮ta们聊天,减少自己聊聊到不合适的好友浪费时间的情况。


啊……这……我……行吧,有了AI,和人聊天都有预制版了


如果我说这家展商是个中国公司,也许不少朋友立马能猜出来。


没错,它就是Soul


量子位在现场拉着Soul的工作人员大聊特聊了一番,其中不仅仅有Soul AI某子板块负责人和他的组员,还被量子位捉到了这家公司的CTO陶明。



Soul CTO陶明



这么好的机会,那还等什么?体验完展台互动,直接再安排库库一顿聊。


Gitex展会,Soul它Show了啥?


整个Soul的展位上,主要互动区摆着三块体验屏幕。


面向展位从左至右,分别可以体验:


  • 左边屏幕:与自己创建的3D数字人流畅互动


  • 中间屏幕:创建能语音文本对话、多语言交流的逼真3D数字人形象


  • 右边屏幕:和聊天机器人语音或文本聊天



量子位在这个展台前站了很久,发现在此驻足的人,更喜欢体验左边和中间的两个功能。


而且大家去Soul展台体验,仿佛有一个无形的规则,那就是选择先在中间的屏幕前探索Soul的实时3D建模功能。


掰开了讲,那就是现场拍一张体验者的照片,在几秒钟的时间内,通过分析90多个面部形状参数和6个属性参数,快速重建虚拟的面部特征,完成虚拟3D形象的生成。


然后,体验者就可以与3D形象对话了。



但光有语言的交流还不够——


到这个时候,大家就会(不自觉地)挪到左边那块屏幕前面。


屏幕上也是自己创造出的虚拟3D形象。基于实时的人体动作识别、数字还原以及多模态对话交互能力,现场可以实现3D虚拟人与真人的沉浸式互动。


多沉浸呢?由于配备了实时运动跟踪,你可以说一些话or摆动身体、四肢,来与屏幕那头的ta低延迟交互。



值得多提一嘴,得益于Soul自家多模态AI模型在背后的支持,这两个屏幕承载的AI体验,允许语音、文本和物理交互同时进行。


AI社交,场景、模型的认知与感知都很重要


尽管这家公司已经推出了Soul海外版,但参加本次Gitex,其实是Soul在海外展会上的第一次亮相,


 “从体验层面来说,海外产品希望给用户端创造更好的粘性。”Soul CTO陶明解释道,“主要还是以Soul这个主平台,来传递我们关于AIGC+社交的概念。”


陶明表示,以他所见,AI+社交这条赛道,无论国内外市场,都要有两个必要条件。


一,是要持续地继续往前发展。


二,是探索的场景和业务,其实现在还不是很明朗。


而Soul拥有的,是「人机对话」这个基础点(或者称为原子能力) 。


在Soul的理念中,因为用户和业务之间其实存在鸿沟,所以要做的事不是把原子能力直接推向用户,而是要建一个AI being和Human being共存的社区。


单点的聊天会在这个社区发生,但是社区无法靠单点聊天维持,“大模型六小强做的一些AI聊天产品,都有支持单点聊天的能力,但持续的聊天难以为继,这就是因为任何AI不在场景里,人机单点聊天其实门槛很高。”


Soul更希望打造不同的场景(比如语聊房),利用一些规则和策略,让人和AI在一起社交,过程难辨真人还是AI。


这里的社交不会局限在聊天这一件事情上,AI NPC和真人用户共同做同一件事,也很容易构建彼此之间的链接。


如陶明所说,Soul的AI+社交理念,最基础的一点是“必须要保证人和AI在同一时空下”。类似于现实世界和现实世界的仿真,人和人的仿真对AI和人建立联系非常重要。


“如果只是单纯聊天这件事,不太成立……一定要要发现场景,才能够说能让用户有更好的体验。”


这一方面,Soul是怎么基于理念来设计产品的呢?


举几个例子。


第一个,在人和人、人和AI的交互过程当中去打造更多的场景


比如用户和AI聊天,你发一张照片让它知道你感冒了,然后就能围绕感冒这个话题继续对话,而不是非要硬找话题。


第二个,和AI语音通话时,它听到你周围的环境音,判断你在咖啡馆或者音乐派对上,话题也能自然而然地展开了。


这就不难理解为什么Soul在大模型方面坚持GPT-4o的方向,因为团队认为一个AI,应当具有统一的感知能力和认知能力。


纯有认知能力,并不能给用户带来价值,因为用户是希望被感知到的。


而o1的方向同样重要,因为o1加强了大模型的认知能力,其实就能给用户带来很好的体验。


社交平台做AI《Her》会有什么不一样吗?


在社交平台这条赛道上,Soul是绝对的头部梯队玩家。很多人不知道的是,它也是国内最早将AI融入社交互动的平台之一。


App上线之初,Soul就开始搭建一些AI能力的基础建设,两个基于AI的引擎。


一个是灵犀引擎,基于Soul用户站内全场景画像的智能推荐系统,通过AI技术,持续挖掘有效特征,通过算法方式提高用户在内容方向的消费和互动体验,提高用户建立关系的效率和质量。


另一个是NAWA引擎,为集AI、渲染与图像处理于一体的集成化SDK,提供AR视频技术、基于多模态感知与驱动的交互技术和基于重建的虚拟形象技术,能够输出包含Avatar表情驱动、美颜美妆、卡通化等数十种图像处理与2D/3D渲染能力的引擎。用它创建的个性化3D头像表现力更强,还能动起来。


2020年(ChatGPT掀起大浪之前),Soul就开始启动对AIGC相关的算法研发工作,并在智能对话、图像生成、语音&音乐生成等方面有了能力积累。


Soul在多模态领域发力很早,2023年Soul就推出自研垂类语言大模型Soul X,垂直应用于平台上多元社交互动场景。


例如智能对话机器人“AI苟蛋”、AI辅助聊天、虚拟陪伴等诸多工具和功能什么的。



在Soul上开启AI辅助聊天


当时的Soul是这么说的:


AIGC带给社交的不仅仅是交互效率、交互质量和交互体验的提升,同时以智能体和虚拟人为代表的交互对象也在发生变革,这意味着社交出现代际的迭代,社交的范围也会被重新定义,社交产品的形态也在发生改变。


今年,Soul持续开搞“AIGC+社交”。


目标很明确:


在有技术能力基础、有用户实际需求、认准“模应一体”方向的情况下,推动AIGC和社交场景的深度融合。


Soul推出了最新的端到端多模态AI模型,该模型集成了文本、语音和视觉交互,具备超低延迟、声音拟真、情绪感知等特点。


端到端尤其显著地降低了聊天的延迟。


陶明披露,Soul现在的语音对话延迟不到200毫秒,“这不再像以前那样是一个连续的过程,我们首先生成文本和图像,然后将它们转换为语音。现在,我们将语音和 NLP 统一到一个集成流程中,从而消除了滞后问题。”


而同时期的“数字孪生”功能,则允许用户根据过去的交互或自定义设置,创建自己的个性化虚拟版本。


现在,刚刚在Gitex上秀了一把的Soul,又快宣布自己的新进展了。


陶明表示,预计到了11月,平台将推出全双工视频通话能力, Soul的AI NPC就能“看得见了”。


也就是说,下个月,用户们就能在Soul里实时和AI的视频聊天了,对方还是有形象、有表情、有记忆,会对前几天不经意咳嗽过一句的你,说感冒好了没有的那种。


这就很《Her》!


之前国内外很多团队都发过各种版本的《Her》,但这次的期待有所不同——


不是在期待语音是否最逼真、延迟是否最低,口型是否对得最好,而是期待,加入AI元素的社交平台公司,熟谙搞社交那一套,在这个人机交互的产品/功能上,会不会有特别的设计。


不过时间还没到,只有先期待一波咯~


关于Gitex


Soul参加的这个海外展会,GITEX GLOBAL全球三大IT展之一,本周五在阿联酋迪拜落下帷幕。


这是第44届GITEX GLOBAL,不出意外创下新高,规模迄今为止最大:


吸引了超过6500家参展商、1800家初创企业、1200名投资者以及来自180多个国家的政府参与。



连迪拜王室也组团莅临现场视察……


这阵仗,让本来就肩膀挨着肩膀的场馆现场更是水泄不通了。



尽管如此,量子位还是拿出go shopping的激情,在二十几个展馆里一个挨一个地认真逛。


终于,不仅打卡了很多中国企业出海来参展的展台,比如阿里、华为、腾讯、涂鸦智能、普渡机器人等等;


也看到了全球范围内很多AI公司的身影出现在现场,比如英国AI独角兽Builder.ai(对没错,背后微软支持,但创始人一直官司不断的那家)、中国的智谱华章等。


当然,如果对电子方面感兴趣的朋友们,一定会逛得更快乐,现场连表情最丰富的机器人阿美卡和小鹏的飞行汽车都有,还有很多没太看明白设计(但中东土豪们肯定喜欢)的飞行器。



不简单啊不简单。


文章来自于微信公众号“量子位”,作者“衡宇”


关键词: AI , AI视频 , Soul , Soul AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales