ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
媲美GPT-4o的王炸模型,这家创业公司做出来了
3705点击    2024-10-12 10:38

大模型赛道的角逐已经行至深水区,唯有真正的价值创造者才能走到终局。后起之秀:无界方舟,推出媲美GPT-4o的王炸模型,垂直深耕AI陪伴领域。


“你好,我是阿奇。”



今年9月的外滩大会“未来客厅”展厅一度被堵得水泄不通,在一个叫作“阿奇”的AI陪伴机器人前,孩子们反反复复摩挲着展台的边缘,嘴里不断喊着阿奇的名字。能让孩子们如此流连忘返,是因为和阿奇的互动体验十分流畅。



虽然是AI机器人,阿奇却有着“高情商”,可以“看见”用户,有着敏捷的反应速度,与其互动就如同和真人交流一样简单丝滑,在体验上全面革新此前国内的AI应用产品。这背后,是其搭载着带有音视频多模态能力的无界方舟大模型——ArkModel 2.0。


今年国庆前GPT-4o正式上线,其中的高级语音功能已经被外界期待了太久,不过目前,其仍旧只向Plus和Team用户推出,免费用户无法体验。GPT-4o的Realtime API在国庆期间推出,但限制也非常明显:无视频对话能力、成本过高(7 RMB/min)、不能定制音色、语音幻觉较多。


从体验上来看,无界方舟大模型已经可以无差别实现GPT-4o的极低延迟AI音视频互动能力。除了可以看见用户、带有情绪地快速回复用户以外,我们还从无界方舟大模型上看到了一些GPT-4o尚不具备的能力,如:大模型可以驱动3D虚拟形象,也可以驱动硬件机器人的动作,在交互上有更多革新。


其背后的研发团队到底是什么来头?无界方舟大模型又还有哪些惊喜?


01 创业仅一年,一出手就是王炸


36氪了解到,无界方舟大模型背后的研发团队,是一家创业仅一年的新秀公司——无界方舟智能技术有限公司(以下简称“无界方舟”)。


创始人兼CEO曾晓东博士,是NLP自然语言处理领域的资深专家,在该领域有超过15年的算法研究与应用经验,担任多个A类机器学习、自然语言处理、人工智能领域会议/期刊评委与区域主席。其还曾任阿里巴巴第一代机器翻译系统的核心算法科学家,也是蚂蚁技术实验室的联合创始人。据了解,曾晓东博士早在2017年于蚂蚁集团任职时就已当选《麻省理工科技评论》评选的MIT TR35,即“35岁以下科技创新35人”。值得一提的是,月之暗面创始人兼CEO杨植麟也在今年入选该名单。



无界方舟创始团队成员,均来自于国内外知名大厂AI业务第一梯队。技术团队80%为NLP自然语言处理专业博士,在NLP自然语言处理、MT机器翻译、IOT物联网硬件等领域,有着多年丰富的从业经验。产品与设计负责人为多年互联网体验战略资深专家,曾获得红点奖、IF奖、环球金趋势奖等多个国际顶尖奖项。


在众多AI创业企业中,虽然无界方舟的创业年限仅一年多,但其已在多个方面自证实力,得到众多顶级赛事和榜单的认可。


在今年WAIC期间,无界方舟在200多家全球顶级AI企业中,入选全球创新大赛决赛,并最终获得全球第5名的优异成绩。紧接着,无界方舟又入选了“2024胡润未来之星潜力企业榜”200强。



那么,究竟是怎样的产品与技术实力,才能夺得这样的市场认可度与关注度?


如大家在一些公开活动中所看到的,无界方舟大模型的产品应用效果已十分惊艳。



随着无界方舟大模型更新至2.0版本,其也拥有了更强大的能力——实现了极低延迟+音视频多模态+情绪表达+多语言+驱动软硬件等综合能力。正如桌面机器人阿奇所演示的,它可以实时看见用户,给看不清药品说明书的老年人解读服药方法,陪伴处于口语发育期的孩子们畅聊。

从多个层面,无界方舟大模型都在让AI智能体更像真人。


02 无界方舟大模型,让AI互动更像真人


GPT-4o引发了端到端实时多模态的热潮,国内外大模型厂商纷纷跟进。


但就现阶段而言,各大厂还无法真正做到交互全面革新,如极低延时回复、可随时打断对话、可“看见”用户的视频互动、情绪表达等业内技术难题都尚未解决。这也意味着,现阶段类GPT-4o的多模态大模型仍属于半成品状态,暂时均无法提供API或SDK对接服务。


一位业内人士告诉36氪,“大厂更致力于摘取通用模型能力中的低垂果实,如ASR语音识别、LLM语言模型、TTS语音合成等。但创业公司想有一席之地,必须有自研能力,要在垂直领域、垂直场景,实现通用模型的技术突破”。


如果说大厂做的是让大模型的木桶没有明显的短板,那么无界方舟在做的就是成为一块长板,一块被别人需要的“砖”。


我们在体验了搭载无界方舟大模型的产品之后发现,其最大的优点是能够真正实现音视频多模态互动、超低延迟反馈、情绪化个性化表达等多种能力。这也使其上手体验极佳,无成本、无障碍,只要用户能沟通,就可以丝滑对话,仿佛在面对真人交流。


为了更加清晰的体现无界方舟大模型在能力方面的长处,我们制作了一张图表:



无界方舟大模型(ArkModel 2.0)是一个多模态端到端模型,能够同时处理文本、音频、图像的数据,并实现跨模态任务的转换。具体而言,模型接收不同形式的输入,如音频通过Audio Encoder编码,图像通过Image Encoder编码,这些编码后的信息在ArkModel中进行统一处理,模型通过下一个token预测生成输出,因此可以实时地流式输出文本或音频。



模型的一个显著特征是其端到端优化设计,强调直接从输入到输出的全流程学习。其中合成数据是优化过程中的关键,主要用于生成大规模的训练数据,包括从图片或语音生成文字和语音、从语音生成文本等多种类型的数据增强。这种方式有效提升了模型的泛化能力和任务适应性。


无界方舟大模型在多项多模态评测中,均超越GPT-4o等业界知名模型:






如图表所示,无界方舟大模型具备以下5点显著优势:(以下视频均为实拍,无任何后期剪辑)


•优势1:


实现300毫秒超低延迟反馈,该成绩不止是纯语音,更是在音视频互动的情况下。在目前国内市场的横向对比中,几乎没有对手;



•优势2:


可实现音视频多模态互动,可以“看见”用户,可随时打断,且具备推理能力;



•优势3:


有丰富的情绪系统,互动自然,去AI感,非常适合陪伴场景;



•优势4:


有多语言能力,目前可实现21种语言,包含葡语、日语、阿拉伯语、粤语等;



•优势5:


可以驱动虚拟形象和实体硬件的动作,实现具身智能的效果。



03 瞄准AI陪伴领域,无界方舟大模型已对外开放合作


2013年上映的科幻电影《HER》曾将人类与人工智能相爱的故事搬上银幕,这个在当时看来略显疯狂的念头,因为大模型的出现,几乎已经快要在现实中实现。


今年8月,GPT-4o语音功能首度亮相之时,就有人惊呼GPT版的《HER》来了,首批试用的用户兴奋地体验发现,其可以实现真人对话般极低延迟、可随时打断、情绪丰富的实时交互。但在那之后,市场便进入了短暂的沉寂。


一位行业专家认为:“只要类GPT-4o的技术没有达到人人可用的状态,市场离真正意义上的爆发就还很遥远。”


曾晓东博士曾受邀在今年的外滩大会上分享AI Agent的商业化落地探索,通过那些可以深层次理解用户需求的个性化智能体,AI可以实现真正意义上的走入千家万户。


而在用户眼中,它可以是一个智能音箱、一个会说话的潮玩娃娃、一个可以和儿童亲近互动的玩具狗,或是一个车载陪伴机器人。


这便是无界方舟希望实现的丰富场景,目前无界方舟大模型已能够对齐GPT-4o的交互能力,且进一步开发出自身的独特优势,例如:在保持极低延迟音视频交互的同时,还可实时驱动虚拟形象和实体硬件的动作行为。这意味着,该模型能力对于具身智能、虚拟数字人或IP形象的场景应用将更为友好和极致。


据36氪了解,无界方舟大模型现已对外开放合作,且目前是业内唯一一家对外提供音视频互动大模型的企业。主要应用场景聚焦在教育互动、智能玩偶、车企陪伴、具身智能、文旅展示等,针对儿童、银发族、学生白领等用户群体都有着不同的解决方案。


如在时下十分热门的教育陪伴领域,AI与教育的结合,可改变传统的教育模式。据36氪此前了解,多家教育企业均在探索与AI的结合。例如,通过AI模拟线下真实授课体验,做超拟人 1 对 1 的 AI 老师。这类探索的优点在于,它不仅是辅助学习,更是通过互动引导,让学生更高效地交流和吸收知识。再比如,儿童的早教产品目前集中于故事机,但除了讲故事、读绘本外,早教机更需要提供一问一答的互动方式,做到丝滑无延迟,让儿童在语言系统发育的关键时期,培养口语表达能力。因此,该类产品对于音视频互动的要求极高,无界方舟大模型可以完美适配。



另外一大热门应用品类则是智能玩具。基于上一代AI技术的产品,通常存在交互复杂(如每次对话需要按压按钮)、反馈延迟高等问题,无法实现自然对话,导致用户使用时长低、留存差。因此,在智能玩具市场中,儿童玩具、IP潮玩、明星周边、数字人盒子、虚拟宠物等产品,都可以和无界方舟大模型有很好的结合。



此外,车企陪伴、具身智能机器人、文旅/企业展示等场景,均可通过应用无界方舟大模型,来实现实时音视频互动,全面革新使用者的交互体验,从而带来业务的增长。



04 AI的尽头是AI Agent?


尽管多家大模型厂商曾在年初表态,认为今年是中国AI应用的爆发元年,但实际上,受限于模型性能,AI应用进入了瓶颈期,即便是在北美市场,资本也正在思考投资AI的性价比。


光大证券研究指出,AI Agent是打破AI应用发展瓶颈的关键,新的ScalingLaw,RL+CoT对于实现能自主规划的AI Agent至关重要。


无界方舟团队则是坚定的AI Agent追随者,深耕AI Agent技术与产品。其也由此走出了两条路线,一条是走垂直领域(生物制药)专业路线的企业级AI Agent,一条则是走陪伴路线的个人AI Agent。


如何真正降低人类使用AI的门槛,通往AGI路上的最核心基础到底是什么?华泰证券出具的报告认为,GPT-4o已初步具备Agent能力,而AI Agent才是通往AGI的核心基础,能真正革新人机交互方式。实际上,Agent也是大模型边际变化的最大能力。


或许每一个冲进人工智能领域的创业者,都有着一个用AI改变世界的理想。但所有理想都必须走向落地,才能真正不辜负理想,既要仰望星空,也要脚踏实地。


这也正是无界方舟团队的特别之处,他们因理想从大厂出来,走出舒适区,进入一个竞争激烈,但又充满可能性的赛道。曾晓东博士的终极梦想是在生命科学、人类事业上有所建树。“他想用他擅长的AI的方式,来为人类事业做些贡献,所以当这波AI热潮出现后,他毅然决然地出来创业了。”曾晓东博士的一位合作伙伴对36氪表示。眼下,大模型赛道的角逐已经行至深水区,唯有真正的价值创造者才能走到终局。


文章来自于微信公众号“36氪”,作者“晓曦”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales