统一VLA范式!港科大开源StarVLA乐高式架构,复现成本大幅降低
统一VLA范式!港科大开源StarVLA乐高式架构,复现成本大幅降低当前具身智能的VLA(Vision-Language-Action)赛道正陷入典型的「碎片化」泥潭:不同团队采用异构的动作解码范式、强耦合的数据管线、互不兼容的评测协议,导致方法难以横向对比,复现成本极高。
搜索
当前具身智能的VLA(Vision-Language-Action)赛道正陷入典型的「碎片化」泥潭:不同团队采用异构的动作解码范式、强耦合的数据管线、互不兼容的评测协议,导致方法难以横向对比,复现成本极高。
在具身智能快速发展的今天,高质量数据已成为驱动能力提升的关键基础,然而一个核心问题也随之而来: 如何让机器人数据采集更快、更稳、更有效?
2026年具身智能这么热, 美国旧金山PI Robotics这家机器人创业公司, 你真得知道。
这个月,具身智能领域又卷出新高度:硅谷独角兽公司 Generalist AI 发布全新一代基础模型 GEN-1,将机器人包装手机、折纸箱这些活的平均成功率直接拉到了创纪录的 99%,折纸箱的速度更是飙到了以前的三倍(34s vs 12.1s)。
T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构,具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上,该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多种智能体上取得 94.83% 的平均抓取成功率,刷新了跨智能体灵巧抓取的 SOTA,具备与动态场景实时交互的能力。
智东西4月12日消息,昨日下午,宇树科技在B站和社交平台X上发出一段新视频,其人形机器人H1跑步速度达到每秒10米,宇树官方称H1用“普通人的体质,跑出了世界冠军的速度”,再次刷新人形机器人的世界纪录。
4 月 10 日晚,灵初智能发布了大模型、数据集与合作计划:包括策略模型 Psi-R2、世界模型 Psi-W0,以及总规模近 10 万小时的人类操作数据。它想回答的问题也很直接 —— 当真机数据不再是唯一解,机器人还能靠什么继续 scaling?
人工智能和机器人领域,有一个反直觉现象: 往往人类觉得复杂、困难的任务,机器人做起来很容易;而人类不以为意的一些感知与运动技能,让机器复现异常困难。
硅谷「华人地图第一人」入局具身数据赛道。
Generalist AI的GEN-1热度,仍在发酵。