大模型赛道的角逐已经行至深水区,唯有真正的价值创造者才能走到终局。后起之秀:无界方舟,推出媲美GPT-4o的王炸模型,垂直深耕AI陪伴领域。
“你好,我是阿奇。”
今年9月的外滩大会“未来客厅”展厅一度被堵得水泄不通,在一个叫作“阿奇”的AI陪伴机器人前,孩子们反反复复摩挲着展台的边缘,嘴里不断喊着阿奇的名字。能让孩子们如此流连忘返,是因为和阿奇的互动体验十分流畅。
虽然是AI机器人,阿奇却有着“高情商”,可以“看见”用户,有着敏捷的反应速度,与其互动就如同和真人交流一样简单丝滑,在体验上全面革新此前国内的AI应用产品。这背后,是其搭载着带有音视频多模态能力的无界方舟大模型——ArkModel 2.0。
今年国庆前GPT-4o正式上线,其中的高级语音功能已经被外界期待了太久,不过目前,其仍旧只向Plus和Team用户推出,免费用户无法体验。GPT-4o的Realtime API在国庆期间推出,但限制也非常明显:无视频对话能力、成本过高(7 RMB/min)、不能定制音色、语音幻觉较多。
从体验上来看,无界方舟大模型已经可以无差别实现GPT-4o的极低延迟AI音视频互动能力。除了可以看见用户、带有情绪地快速回复用户以外,我们还从无界方舟大模型上看到了一些GPT-4o尚不具备的能力,如:大模型可以驱动3D虚拟形象,也可以驱动硬件机器人的动作,在交互上有更多革新。
其背后的研发团队到底是什么来头?无界方舟大模型又还有哪些惊喜?
36氪了解到,无界方舟大模型背后的研发团队,是一家创业仅一年的新秀公司——无界方舟智能技术有限公司(以下简称“无界方舟”)。
创始人兼CEO曾晓东博士,是NLP自然语言处理领域的资深专家,在该领域有超过15年的算法研究与应用经验,担任多个A类机器学习、自然语言处理、人工智能领域会议/期刊评委与区域主席。其还曾任阿里巴巴第一代机器翻译系统的核心算法科学家,也是蚂蚁技术实验室的联合创始人。据了解,曾晓东博士早在2017年于蚂蚁集团任职时就已当选《麻省理工科技评论》评选的MIT TR35,即“35岁以下科技创新35人”。值得一提的是,月之暗面创始人兼CEO杨植麟也在今年入选该名单。
无界方舟创始团队成员,均来自于国内外知名大厂AI业务第一梯队。技术团队80%为NLP自然语言处理专业博士,在NLP自然语言处理、MT机器翻译、IOT物联网硬件等领域,有着多年丰富的从业经验。产品与设计负责人为多年互联网体验战略资深专家,曾获得红点奖、IF奖、环球金趋势奖等多个国际顶尖奖项。
在众多AI创业企业中,虽然无界方舟的创业年限仅一年多,但其已在多个方面自证实力,得到众多顶级赛事和榜单的认可。
在今年WAIC期间,无界方舟在200多家全球顶级AI企业中,入选全球创新大赛决赛,并最终获得全球第5名的优异成绩。紧接着,无界方舟又入选了“2024胡润未来之星潜力企业榜”200强。
那么,究竟是怎样的产品与技术实力,才能夺得这样的市场认可度与关注度?
如大家在一些公开活动中所看到的,无界方舟大模型的产品应用效果已十分惊艳。
随着无界方舟大模型更新至2.0版本,其也拥有了更强大的能力——实现了极低延迟+音视频多模态+情绪表达+多语言+驱动软硬件等综合能力。正如桌面机器人阿奇所演示的,它可以实时看见用户,给看不清药品说明书的老年人解读服药方法,陪伴处于口语发育期的孩子们畅聊。
从多个层面,无界方舟大模型都在让AI智能体更像真人。
GPT-4o引发了端到端实时多模态的热潮,国内外大模型厂商纷纷跟进。
但就现阶段而言,各大厂还无法真正做到交互全面革新,如极低延时回复、可随时打断对话、可“看见”用户的视频互动、情绪表达等业内技术难题都尚未解决。这也意味着,现阶段类GPT-4o的多模态大模型仍属于半成品状态,暂时均无法提供API或SDK对接服务。
一位业内人士告诉36氪,“大厂更致力于摘取通用模型能力中的低垂果实,如ASR语音识别、LLM语言模型、TTS语音合成等。但创业公司想有一席之地,必须有自研能力,要在垂直领域、垂直场景,实现通用模型的技术突破”。
如果说大厂做的是让大模型的木桶没有明显的短板,那么无界方舟在做的就是成为一块长板,一块被别人需要的“砖”。
我们在体验了搭载无界方舟大模型的产品之后发现,其最大的优点是能够真正实现音视频多模态互动、超低延迟反馈、情绪化个性化表达等多种能力。这也使其上手体验极佳,无成本、无障碍,只要用户能沟通,就可以丝滑对话,仿佛在面对真人交流。
为了更加清晰的体现无界方舟大模型在能力方面的长处,我们制作了一张图表:
无界方舟大模型(ArkModel 2.0)是一个多模态端到端模型,能够同时处理文本、音频、图像的数据,并实现跨模态任务的转换。具体而言,模型接收不同形式的输入,如音频通过Audio Encoder编码,图像通过Image Encoder编码,这些编码后的信息在ArkModel中进行统一处理,模型通过下一个token预测生成输出,因此可以实时地流式输出文本或音频。
模型的一个显著特征是其端到端优化设计,强调直接从输入到输出的全流程学习。其中合成数据是优化过程中的关键,主要用于生成大规模的训练数据,包括从图片或语音生成文字和语音、从语音生成文本等多种类型的数据增强。这种方式有效提升了模型的泛化能力和任务适应性。
无界方舟大模型在多项多模态评测中,均超越GPT-4o等业界知名模型:
如图表所示,无界方舟大模型具备以下5点显著优势:(以下视频均为实拍,无任何后期剪辑)
•优势1:
实现300毫秒超低延迟反馈,该成绩不止是纯语音,更是在音视频互动的情况下。在目前国内市场的横向对比中,几乎没有对手;
•优势2:
可实现音视频多模态互动,可以“看见”用户,可随时打断,且具备推理能力;
•优势3:
有丰富的情绪系统,互动自然,去AI感,非常适合陪伴场景;
•优势4:
有多语言能力,目前可实现21种语言,包含葡语、日语、阿拉伯语、粤语等;
•优势5:
可以驱动虚拟形象和实体硬件的动作,实现具身智能的效果。
2013年上映的科幻电影《HER》曾将人类与人工智能相爱的故事搬上银幕,这个在当时看来略显疯狂的念头,因为大模型的出现,几乎已经快要在现实中实现。
今年8月,GPT-4o语音功能首度亮相之时,就有人惊呼GPT版的《HER》来了,首批试用的用户兴奋地体验发现,其可以实现真人对话般极低延迟、可随时打断、情绪丰富的实时交互。但在那之后,市场便进入了短暂的沉寂。
一位行业专家认为:“只要类GPT-4o的技术没有达到人人可用的状态,市场离真正意义上的爆发就还很遥远。”
曾晓东博士曾受邀在今年的外滩大会上分享AI Agent的商业化落地探索,通过那些可以深层次理解用户需求的个性化智能体,AI可以实现真正意义上的走入千家万户。
而在用户眼中,它可以是一个智能音箱、一个会说话的潮玩娃娃、一个可以和儿童亲近互动的玩具狗,或是一个车载陪伴机器人。
这便是无界方舟希望实现的丰富场景,目前无界方舟大模型已能够对齐GPT-4o的交互能力,且进一步开发出自身的独特优势,例如:在保持极低延迟音视频交互的同时,还可实时驱动虚拟形象和实体硬件的动作行为。这意味着,该模型能力对于具身智能、虚拟数字人或IP形象的场景应用将更为友好和极致。
据36氪了解,无界方舟大模型现已对外开放合作,且目前是业内唯一一家对外提供音视频互动大模型的企业。主要应用场景聚焦在教育互动、智能玩偶、车企陪伴、具身智能、文旅展示等,针对儿童、银发族、学生白领等用户群体都有着不同的解决方案。
如在时下十分热门的教育陪伴领域,AI与教育的结合,可改变传统的教育模式。据36氪此前了解,多家教育企业均在探索与AI的结合。例如,通过AI模拟线下真实授课体验,做超拟人 1 对 1 的 AI 老师。这类探索的优点在于,它不仅是辅助学习,更是通过互动引导,让学生更高效地交流和吸收知识。再比如,儿童的早教产品目前集中于故事机,但除了讲故事、读绘本外,早教机更需要提供一问一答的互动方式,做到丝滑无延迟,让儿童在语言系统发育的关键时期,培养口语表达能力。因此,该类产品对于音视频互动的要求极高,无界方舟大模型可以完美适配。
另外一大热门应用品类则是智能玩具。基于上一代AI技术的产品,通常存在交互复杂(如每次对话需要按压按钮)、反馈延迟高等问题,无法实现自然对话,导致用户使用时长低、留存差。因此,在智能玩具市场中,儿童玩具、IP潮玩、明星周边、数字人盒子、虚拟宠物等产品,都可以和无界方舟大模型有很好的结合。
此外,车企陪伴、具身智能机器人、文旅/企业展示等场景,均可通过应用无界方舟大模型,来实现实时音视频互动,全面革新使用者的交互体验,从而带来业务的增长。
尽管多家大模型厂商曾在年初表态,认为今年是中国AI应用的爆发元年,但实际上,受限于模型性能,AI应用进入了瓶颈期,即便是在北美市场,资本也正在思考投资AI的性价比。
光大证券研究指出,AI Agent是打破AI应用发展瓶颈的关键,新的ScalingLaw,RL+CoT对于实现能自主规划的AI Agent至关重要。
无界方舟团队则是坚定的AI Agent追随者,深耕AI Agent技术与产品。其也由此走出了两条路线,一条是走垂直领域(生物制药)专业路线的企业级AI Agent,一条则是走陪伴路线的个人AI Agent。
如何真正降低人类使用AI的门槛,通往AGI路上的最核心基础到底是什么?华泰证券出具的报告认为,GPT-4o已初步具备Agent能力,而AI Agent才是通往AGI的核心基础,能真正革新人机交互方式。实际上,Agent也是大模型边际变化的最大能力。
或许每一个冲进人工智能领域的创业者,都有着一个用AI改变世界的理想。但所有理想都必须走向落地,才能真正不辜负理想,既要仰望星空,也要脚踏实地。
这也正是无界方舟团队的特别之处,他们因理想从大厂出来,走出舒适区,进入一个竞争激烈,但又充满可能性的赛道。曾晓东博士的终极梦想是在生命科学、人类事业上有所建树。“他想用他擅长的AI的方式,来为人类事业做些贡献,所以当这波AI热潮出现后,他毅然决然地出来创业了。”曾晓东博士的一位合作伙伴对36氪表示。眼下,大模型赛道的角逐已经行至深水区,唯有真正的价值创造者才能走到终局。
文章来自于微信公众号“36氪”,作者“晓曦”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales