ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
下一代超级智能终端的入口,AI大模型+AR共同塑造
8440点击    2024-05-27 22:45

AI时代的到来,从未如此确定。而留给大众与行业的遐想空间,开始滑落到下一代智能终端的具体形态。


PC、Laptop、Pad、手机、车机、手表……现有的各类终端,是否会是未来终端的基础形态?以及AI时代下,是否可以真正的万物互联?


而在大模型技术带来的智能涌现中,下一代的交互入口,开始若隐若现。


一、平替升级:下一代交互入口


人机交互模式的发展,存在一条方向明确的路径。关于人机交互的最终方向,人们会不约而同地归因“脑机交互”。


但这显然还只能停留在幻想。从计算机早期存储介质的穿孔纸带作为锚点开始回顾,可以看到从鼠标键盘到触控屏的发展,依旧保持着人操作机器的“被动”逻辑。而目前已经开始出现的各类语音、图像与动作等多模态交互方式,则开始进化到了机器理解人的“主动”逻辑。


支撑交互的数字技术,也呈现出相同的发展趋势。还是以AI为例,控制论、NLP、深度学习等里程碑式AI技术逐渐出现的过程,也是AI技术逐渐感知理解世界的过程。而自生成式AI出现后,AI能力真实进入到了“更懂人”的阶段,能力维度也从感知理解,提升到了生成创造的。


不难发现,人机交互的终端形态,受限于AI等技术的实际发展。但在智能涌现的当下,未来终端的形态其实也已经有了雏形。


硬件终端的发展路径,大多离不开对某一传统形态的平替升级。在过去,从手机到智能手机,从电视到智能电视,从手表到智能手表,从音箱到智能音箱,基本都延续着这一路径。


未来智能终端或者说AI硬件的产品逻辑,是交互形态决定了产品形态,从而匹配新技术带来的体验提升。


“所以我们坚定地认为,AI硬件必然会到来。”李未可科技创始人兼CEO茹忆认为。有过前阿里人工智能实验室硬件终端总经理、天猫精灵产品总经理的履历,茹忆坚信AI大模型时代中,各种智能设备的“焕新”是必然。


李未可科技创始人兼CEO茹忆


当下情况是,原有智能硬件的升级,诸如AIPC、AI Phone等类别,存在各自的问题。比如PC行业硬件的控制权在几家巨头手中,变革的动力源于上游,而软件和系统层同理更多是巨头们针对自身产品能力的逐步提升,软硬双方之间的革新步调并不一致。再比如手机行业,在手机相对来说创新疲软的当下,AI无疑是逃离影像功能、硬件参数的新增长点。但其更像是应用层的体验增加,而非终端产品的真实新形态。


而原生AI硬件如AI Pin等硬件,也尚处于创新阶段,体验远远未曾达到。也正因此,智能眼镜这一相对新颖却又是在传统上升级的产品形态,一度被业内视为可行性较高的方向。


现实情况是,Pico、小鸟、微软、苹果等垂直厂商或是核心大厂,都在探索AR、VR以及XR等不同形态下智能头戴式设备,而整体的展示形式,也在不断向眼镜靠拢。


“我们认为,硬件设备的形态演进会更靠近人体的交互器官。”在茹忆视野中,更适宜人们生活的终端产品,会是眼镜这一符合大众习惯的形态。而AR的发展方向,则是基于交互方式的考量。


AR眼镜,被茹忆认为是下一代终端的可能形态。


二、AI大模型+AR:道阻且长


目前来看,不同厂商的AI+AR眼镜探索,可以分为两个方向。一个是室外路径,追求的是愈发轻薄的体验和能够提供助力的AI,诸如本地生活、出行、户外、旅游等当下大众室外核心的生活动作,作为匹配。


另一个自然是室内方向。针对办公、影视、游戏甚至室内健身等众多场景需要,提供极致的沉浸体验,来提供AR甚至MR的产品功能。


李未可科技创始人兼CEO茹忆


茹忆通过李未可进行的探索路径,是前者。在其看来,智能硬件技术加上AI交互能力,在户外场景中能够为用户带来的,是跨时代的新体验。而生成式AI带来的交互方式,为用户提供了能在骑行、运动甚至Citywalk等场景下的操纵可能,作为特定场景下的体验升级。


以李未可推出的AR眼镜产品Meta Lans S3为例,游玩过程中语音交互即可随时抓拍第一视角,出游“觅食”可以获得当地特色美食推荐,而基于AR+LBS结合的新技术,能够获得随身讲解的“字幕”。


AI大模型技术在其中的价值,是对AR产品服务能力的加持。这是李未可所看到的行业空白机遇。就目前来看,室外运动场景,并未出现真正的垂直多模态大模型。


为此,李未可打造了WAKE- AI,一个针对AI+终端定向优化研发的多模态AI大模型平台。这也是李未可的实践方向——围绕交互、情感与服务三位合一的价值交付。一方面,是基于长时记忆、用户兴趣挖掘、多模态交互甚至主动交互的“情感陪伴”。另一方面则是能够从美食、旅游、订票多个需求场景提供助力的AI Agent。


具体来看,交互维度上,定向优化的分发大模型,可以为用户提供更自然的交互体验,比如可以小于2秒的实时交互,比如准确率高于99%的语音唤醒,在调用专业AI Agent的基础上,AI大模型提供的交互是快速且高质的。


情感维度上,AI大模型并非冰冷的机器反馈,可以是带着情感链接的更好陪伴。诸如Emotional Voice Clone等大模型能力,可以在语音语义基础上,理解、识别情绪,并且根据用户喜好进行深度的聊天,并调用AI Agent解决对应问题。


而户外垂直领域的多模态大模型,则能为用户提供更精准的服务。景区、小众特色场景与路线、当地特色美食等不同数据的供给,让路线、推荐、攻略等核心能力,变为AR眼镜的实时导览、动态巡航以及地点弹幕等更有趣的体验形态。


但这并不意味着这是终极形态。以李未可自身演进进程为例,AI与AR结合的难题在于,如何进入到最后一公里。


AR眼镜是思路,是方向,但还不是结果。李未可的AR产品已经迭代过几次,在户外骑行场景中受到了用户诸多好评与反馈。一个现实体感是,无论是显示效果还是真实使用场景,“都有许多需要改进的地方,硬件也并未完全满足需求。”茹忆坦言,但他依旧坚信AI带来的交互形态改变,会是AR眼镜后续的和新方向,也是未来智能终端的可能形态。


在近期,其推出了更轻薄的AI眼镜产品Meta Lens Chat。这代表着茹忆最新的思考——更常规的产品形态,能够匹配日常雏形全天候应用场景,以及AI大模型的能力加持。


这像是从AR智能眼镜到AI眼镜的进化。或者说,是一种“当下”作为匹配的AI载体。


文章来源于:36氪产业创新




AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md