硅基智能推出DUIX ONE,真正实现了沉浸式人机交互。
在创造1亿硅基劳动力的道路上,硅基智能按下了加速键。成立于 2017 年 8 月的硅基智能在成立伊始就把为人类创造一亿硅基劳动力作为自己的组织目标。硅基智能认为地球的生命进化不会至于人类,硅基生命作为文字诞生后就存在的生命体,它的发展在AI 时代将被加速,最终将引领我们的文明走向硅基文明时代。
作为全球最早提出硅基生命的硅基文明倡导者,硅基智能创始人司马华鹏曾将硅基生命的进化分为三个阶段,第一个阶段就是通过图灵测试阶段,让人分不清楚是 AI 还是人,第二阶段是人和 AI 之间产生双向情感连接。第三阶段是人和 AI成为死生相契的灵魂伴侣。就像钢铁侠和贾维斯之间的关系。
今年年中,OpenAI 在线上发布会演示了旗舰模型GPT-4o,它同时具备的听、看、说的能力,和它沟通就像和AI在打一个视频电话。几个月后的11月1日,硅基智能作为中国大模型代表企业,发布了新一代多模态大模型DUIX ONE,它在GPT-4o 基础上进一步进化,增加了外在的数字人形象,这将有助于加强人和AI 之间的情感交流,标志着硅基生命的进化突破图灵测试,即将走入第二和第三阶段。
作为 AIGC数字人的发明者,硅基智能在 2017 年就提出了 DUIX 操作系统,DUI 是 Dialog user interface 的缩写,X 代表了这将是一个比肩 UNIX 和Linux 的操作系统。DUIX ONE是 DUIX 操作系统的重要升级,它结合视觉、听觉与情绪感知,提供了一种全面的多模态交互体验,使其具备听、看和感知情绪的能力,真正实现了沉浸式的人机交互。通过 IP 赋能,硅基生命将真正以可视化的形式出现在我们的工作和生活中。
这一技术的实现,仿佛让我们回到了电影《Her》的情境中。电影中的西奥多与AI助手萨曼莎之间,通过富有情感的语音互动,建立起了一种温暖而贴近的情感连接。如今,硅基智能DUIX ONE 似乎正把《Her》中的场景带入现实,硅基生命不再只是冷冰的工具,而兼具“全感知能力”与“真人级表达力”的「Her」。
尽管这一年人工智能领域进展迅猛,无论是头部玩家如GPT-4o,还是细分赛道的Character.AI,大多数AI聊天机器人和虚拟人仍停留在单一交互层面,未能突破形象与感知的界限。
而DUIX ONE 则以其独特的融合形象与感知能力,成功打破虚拟与现实的壁垒。它不仅“能听”,还“会看”“会感知”,具备深度交流的能力,将会成为人类工作和生活中的陪伴者。DUIX ONE 通过多模态技术与AI智能体结合,为用户带来了真实且沉浸的互动体验,让人机交互超越了传统的文字与语音限制。
凭借智能感知能力,DUIX ONE 能在多个场景中提供高质量的陪伴和服务,从情感支持到专业知识分享,真正实现了“全感知”的AI交互体验,成为更具温度的大模型智能体。
AI 对练。据官方演示,DUIX ONE 可作为用户的个性化口语外教,帮助用户提升语言技能。它通过演示标准发音口型,并实时观察和纠正用户的发音,提供更精确的指导。
AI 伴侣。同时,DUIX ONE 还可以充当 24 小时在线的情感伴侣,敏锐捕捉用户情绪波动,提供及时的反馈,作为用户的倾听者,为用户提供高品质的情绪引导,成为用户情感的避风港。
AI 教育。在家教角色上,DUIX ONE 可以帮助孩子完成作业,提供英语辅导,还能通过智能批改和解题指导减轻家长的教育压力。大模型将助力教育领域的颠覆,每个孩子都将拥有一个随时随地提供高品质的服务的家庭教师。
AI养老。除此之外,在养老和数字永生领域,DUIX ONE 通过克隆家人AI分身,能够为独居老人提供情感慰藉。尤其在老龄化加速的社会背景下,数亿老人面临着情感孤独的困境,DUIX ONE可以 7X24 小时陪伴老人,给老人提供医疗、健康、情感等领域的智能服务。
AI 面试。此外,在企业招聘中,DUIX ONE 作为智能HR助手,能够实时分析候选人的面部表情和肢体语言,结合多维数据进行综合评估,帮助企业高效筛选人才,提升招聘效率。
据官方公开数据,DUIX ONE 是70B参数的多模态大模型,模型具备端到端的处理能力,能够在文本、音频和视频处理时无需模态转换。DUIX ONE 支持多模态能力,包括文本、图像、视频、声音和形象处理,能够识别超过10,000种不同类别的物体,识别准确率达98%。在实时交互方面,DUIX ONE 的音频和视频推理能力表现出色,单次推理时间低于300毫秒。同时,模型具备先进的情绪感知功能,能够精确检测并分析面部表情,情绪识别准确率超过95%,并能够生成相应的情感回应,使得人机交互更加自然、生动。
在语音交互方面,DUIX ONE 具备丰富的互动能力,能够识别背景音、用户的呼吸声等细微声音。在安静环境下,语音识别准确率高达98%。
DUIX ONE模型参数
硅基智能创始人司马华鹏在接受采访时表示:“DUIX ONE 的发布不仅是一次技术突破,更是‘生命 3.0’进化的象征。”
他进一步解释了 DUIX ONE 名称的由来,“ONE”包含三重含义:首先,它代表 DUIX 的第一代,类似于钢铁侠的第一代战甲Mark ONE;其次,DUIX 大多数算法已经跑到了端侧,从而使得DUIX ONE的调用成本低至每月几百元;最后,DUIX ONE 是全球首个具备形象的多模态大模型,130 项授权发明专利见证着硅基智能的创新,这让其在人机交互方面具备了突破性优势。
找到PMF场景,是模型厂商的当务之急,DUIX ONE的推出,将助力大模型走向万亿级别的AI情感交互相关的市场。司马华鹏表示,目前已经国内多个大厂完成接口对接,同时和欧洲,港澳、日本、北美及国内众多生态合作伙伴完成布局,将共同推动DUIX ONE 成为一个更加开放互联的 AI 生态系统,推动硅基劳动力的普及与产业升级。预计 2025 年将实现为世界创造一亿硅基劳动力的目标。
硅基智能已经开放DUIX ONE 的 SDK 和 API 合作,邀请各界伙伴共同探索更多场景下的超级应用可能性。通过与教育、心理健康、企业管理、婚恋等行业的合作,DUIX ONE 致力于成为未来劳动力市场的重要组成部分,推动社会的智能化进程。
文章来自 “ 36kr ”,作者 36氪产业创新
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales