
全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式
全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式凭借类人化的结构设计与运动模式,人形机器人被公认为最具潜力融入人类环境的通用型机器人。其核心任务涵盖操作 (manipulation)、移动 (locomotion) 与导航 (navigation) 三大领域,而这些任务的高效完成,均以机器人对自身所处环境的全面精准理解为前提。
凭借类人化的结构设计与运动模式,人形机器人被公认为最具潜力融入人类环境的通用型机器人。其核心任务涵盖操作 (manipulation)、移动 (locomotion) 与导航 (navigation) 三大领域,而这些任务的高效完成,均以机器人对自身所处环境的全面精准理解为前提。
2024年5月,英国自动驾驶初创公司Wayve宣布完成10.5亿美元(约合人民币75亿元)的C轮融资,这不仅成为2024年全球自动驾驶领域最大规模的单笔融资,同时也是欧洲人工智能公司有史以来获得的最大投资之一。
具身智能加速演进,硬件本体持续刷新边界,具身模型也在数据与交互中渐现雏形。而在系统层,通用协同的操作底座依然缺位。
外卖平台补贴大战结束,美团、淘宝、京东转而聚焦AI投资,尤其在具身智能领域(机器人)。巨头面临硬件自研困境,多通过投资机器人公司协同创新,而非内部孵化。京东侧重提升物流仓储效率,美团覆盖本地生活场景,阿里专注大模型与智能中枢。这源于外卖市场饱和与低估值压力,巨头寻求新技术突破以创造增量。
尽管当前的机器人视觉语言操作模型(VLA)展现出一定的泛化能力,但其操作模式仍以准静态的抓取与放置(pick-and-place)为主。相比之下,人类在操作物体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取,将难以应对现实环境中的复杂任务。
还有人没被《大展鸿图》洗脑吗? 反正今天一睁眼,朋友圈里就有人形机器人“别墅里面唱K”开始刷屏,给我看得一愣一愣的——
为什么机器人能听懂指令却做不对动作?语言大模型指挥机器人,真的是最优解吗?端到端的范式到底是不是通向 AGI 的唯一道路?这些问题背后,藏着机器智能的未来密码。
打通机器人智能化的关键:眼+脑+手。
如今的具身智能,早已爆红AI圈。数据瓶颈、难以多场景泛化等难题,一直困扰着业界的玩家们。就在WAIC上,全新具身智能平台「悟能」登场了。它以世界模型为引擎,能为机器人提供强大感知、导航、多模态交互能力。
在 7 月 26 日召开的 WAIC 世界人工智能大会上,AI Agent、具身智能被推上了 C 位:从行业论坛到展台