# 热门搜索 #
搜索
下一代超级智能终端的入口,AI大模型+AR共同塑造
8320点击    2024-05-27 22:45

AI时代的到来,从未如此确定。而留给大众与行业的遐想空间,开始滑落到下一代智能终端的具体形态。


PC、Laptop、Pad、手机、车机、手表……现有的各类终端,是否会是未来终端的基础形态?以及AI时代下,是否可以真正的万物互联?


而在大模型技术带来的智能涌现中,下一代的交互入口,开始若隐若现。


一、平替升级:下一代交互入口


人机交互模式的发展,存在一条方向明确的路径。关于人机交互的最终方向,人们会不约而同地归因“脑机交互”。


但这显然还只能停留在幻想。从计算机早期存储介质的穿孔纸带作为锚点开始回顾,可以看到从鼠标键盘到触控屏的发展,依旧保持着人操作机器的“被动”逻辑。而目前已经开始出现的各类语音、图像与动作等多模态交互方式,则开始进化到了机器理解人的“主动”逻辑。


支撑交互的数字技术,也呈现出相同的发展趋势。还是以AI为例,控制论、NLP、深度学习等里程碑式AI技术逐渐出现的过程,也是AI技术逐渐感知理解世界的过程。而自生成式AI出现后,AI能力真实进入到了“更懂人”的阶段,能力维度也从感知理解,提升到了生成创造的。


不难发现,人机交互的终端形态,受限于AI等技术的实际发展。但在智能涌现的当下,未来终端的形态其实也已经有了雏形。


硬件终端的发展路径,大多离不开对某一传统形态的平替升级。在过去,从手机到智能手机,从电视到智能电视,从手表到智能手表,从音箱到智能音箱,基本都延续着这一路径。


未来智能终端或者说AI硬件的产品逻辑,是交互形态决定了产品形态,从而匹配新技术带来的体验提升。


“所以我们坚定地认为,AI硬件必然会到来。”李未可科技创始人兼CEO茹忆认为。有过前阿里人工智能实验室硬件终端总经理、天猫精灵产品总经理的履历,茹忆坚信AI大模型时代中,各种智能设备的“焕新”是必然。


李未可科技创始人兼CEO茹忆


当下情况是,原有智能硬件的升级,诸如AIPC、AI Phone等类别,存在各自的问题。比如PC行业硬件的控制权在几家巨头手中,变革的动力源于上游,而软件和系统层同理更多是巨头们针对自身产品能力的逐步提升,软硬双方之间的革新步调并不一致。再比如手机行业,在手机相对来说创新疲软的当下,AI无疑是逃离影像功能、硬件参数的新增长点。但其更像是应用层的体验增加,而非终端产品的真实新形态。


而原生AI硬件如AI Pin等硬件,也尚处于创新阶段,体验远远未曾达到。也正因此,智能眼镜这一相对新颖却又是在传统上升级的产品形态,一度被业内视为可行性较高的方向。


现实情况是,Pico、小鸟、微软、苹果等垂直厂商或是核心大厂,都在探索AR、VR以及XR等不同形态下智能头戴式设备,而整体的展示形式,也在不断向眼镜靠拢。


“我们认为,硬件设备的形态演进会更靠近人体的交互器官。”在茹忆视野中,更适宜人们生活的终端产品,会是眼镜这一符合大众习惯的形态。而AR的发展方向,则是基于交互方式的考量。


AR眼镜,被茹忆认为是下一代终端的可能形态。


二、AI大模型+AR:道阻且长


目前来看,不同厂商的AI+AR眼镜探索,可以分为两个方向。一个是室外路径,追求的是愈发轻薄的体验和能够提供助力的AI,诸如本地生活、出行、户外、旅游等当下大众室外核心的生活动作,作为匹配。


另一个自然是室内方向。针对办公、影视、游戏甚至室内健身等众多场景需要,提供极致的沉浸体验,来提供AR甚至MR的产品功能。


李未可科技创始人兼CEO茹忆


茹忆通过李未可进行的探索路径,是前者。在其看来,智能硬件技术加上AI交互能力,在户外场景中能够为用户带来的,是跨时代的新体验。而生成式AI带来的交互方式,为用户提供了能在骑行、运动甚至Citywalk等场景下的操纵可能,作为特定场景下的体验升级。


以李未可推出的AR眼镜产品Meta Lans S3为例,游玩过程中语音交互即可随时抓拍第一视角,出游“觅食”可以获得当地特色美食推荐,而基于AR+LBS结合的新技术,能够获得随身讲解的“字幕”。


AI大模型技术在其中的价值,是对AR产品服务能力的加持。这是李未可所看到的行业空白机遇。就目前来看,室外运动场景,并未出现真正的垂直多模态大模型。


为此,李未可打造了WAKE- AI,一个针对AI+终端定向优化研发的多模态AI大模型平台。这也是李未可的实践方向——围绕交互、情感与服务三位合一的价值交付。一方面,是基于长时记忆、用户兴趣挖掘、多模态交互甚至主动交互的“情感陪伴”。另一方面则是能够从美食、旅游、订票多个需求场景提供助力的AI Agent。


具体来看,交互维度上,定向优化的分发大模型,可以为用户提供更自然的交互体验,比如可以小于2秒的实时交互,比如准确率高于99%的语音唤醒,在调用专业AI Agent的基础上,AI大模型提供的交互是快速且高质的。


情感维度上,AI大模型并非冰冷的机器反馈,可以是带着情感链接的更好陪伴。诸如Emotional Voice Clone等大模型能力,可以在语音语义基础上,理解、识别情绪,并且根据用户喜好进行深度的聊天,并调用AI Agent解决对应问题。


而户外垂直领域的多模态大模型,则能为用户提供更精准的服务。景区、小众特色场景与路线、当地特色美食等不同数据的供给,让路线、推荐、攻略等核心能力,变为AR眼镜的实时导览、动态巡航以及地点弹幕等更有趣的体验形态。


但这并不意味着这是终极形态。以李未可自身演进进程为例,AI与AR结合的难题在于,如何进入到最后一公里。


AR眼镜是思路,是方向,但还不是结果。李未可的AR产品已经迭代过几次,在户外骑行场景中受到了用户诸多好评与反馈。一个现实体感是,无论是显示效果还是真实使用场景,“都有许多需要改进的地方,硬件也并未完全满足需求。”茹忆坦言,但他依旧坚信AI带来的交互形态改变,会是AR眼镜后续的和新方向,也是未来智能终端的可能形态。


在近期,其推出了更轻薄的AI眼镜产品Meta Lens Chat。这代表着茹忆最新的思考——更常规的产品形态,能够匹配日常雏形全天候应用场景,以及AI大模型的能力加持。


这像是从AR智能眼镜到AI眼镜的进化。或者说,是一种“当下”作为匹配的AI载体。


文章来源于:36氪产业创新




AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md