突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知
突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知视觉-语言-动作模型(VLA)在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型(VLM)动作生成能力,机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而,这类模型在应对长时序或精细操作任务时,仍然存在性能下降的现象。
视觉-语言-动作模型(VLA)在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型(VLM)动作生成能力,机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而,这类模型在应对长时序或精细操作任务时,仍然存在性能下降的现象。
美国加州大学圣地亚哥分校(UCSD)徐升教授对 DeepTech 表示:“很荣幸我们的工作成为 Nature Sensors 期刊的首篇论文,我们第一次通过 AI 的方法实现了在动态下抗运动伪影的人机交互,应用场景包括可穿戴和移动设备的手势控制、机器人遥操作、AR/VR 动作追踪、游戏、康复与辅助设备、工业与军事训练、健康与运动监测、
灵心巧手创始人兼CTO周永对《智能涌现》透露,目前公司月订单现已突破千台,海外客户已包括三星、西门子等科技公司。
33岁,A股上市公司董事长!B站百大up主“稚晖君”,又更上了一层楼。
具身智能赛道又迎来新的融资消息。
1米3的机器人小土豆,三步上篮也可以如此丝滑。
具身智能要想往大规模应用走,像英特尔这样的头部芯片公司必须突破算力架构。
真·乘胜追击。
CMU×Meta 联手,姚班李忆唐最新论文成果。
因为成功手搓了一个成本不到5000元的“拼夕夕式”丐版硬件,原旷视6号员工、研究院助理院长范浩强终于下决心,在2025年投身具身智能创业。