将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界 将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界 关键词: AI新闻,具身智能,SpatialPoint,模型训练 机器人能认出杯子,却看不懂杯口朝哪、离自己多远、该抓哪里。 来自主题: AI技术研报 8110 点击 2026-03-30 15:03