机器人落地复杂场景,社交导航能力一定是避不开的关键一点。
先简单介绍下,社交导航 (SocialNav,Social navigation) 是指在人机共存的环境中,机器人在遵循社会规范的前提下执行导航任务。
就拿下图来说,机器人需导航至目标点,而目标恰好位于两名行人未来轨迹的交汇区域。
它不仅要灵活避免潜在的碰撞风险,还需与行人保持合适的社交距离。
总而言之,社交导航该任务对视觉导航领域提出了独特挑战:
预建地图的方法难以适应人群密集的动态环境,而现有RL方法存在短视决策和依赖全局信息的问题。
近期,香港科技大学(广州)和香港科技大学联合提出了一种新算法,Falcon。
它通过将轨迹预测算法融入社交导航任务中,实现长期动态避障并提升导航性能。
社交导航的另一个重要挑战则是现有基准的真实性不足。
如下所示,现有基准通常存在以下几方面的局限性:
针对上述局限性,研究团队构建了两个新数据集——Social-HM3D 和 Social-MP3D,作为社交导航任务的新基准。
该项目论文已被ICRA 2025接收,同时已经挂上arXiv。
代码和模型权重可到GitHub寻找。
Falcon算法框架由2个模块组成:
模块一,主策略网络,这是Falcon的“大脑”,负责指导机器人如何行动。
其核心是社会认知惩罚(SCP,Social Cognition Penalty)机制,通过设计专门的惩罚函数,避免机器人干扰人类未来轨迹,从而引导智能体规避碰撞风险并保持社交距离。
具体而言,Falcon引入三个关键惩罚项:
模块二,时空预知模块(SPM),结合轨迹预测与多种社交感知辅助任务,显著增强了机器人对未来环境动态变化的预测能力。
其主要功能包括:
关键在于,辅助任务仅在训练阶段使用。
在推理阶段,机器人仅依赖主策略网络进行决策。
这种设计简化了推理过程,确保模型在实际应用中的高效性。
现有社交导航基准存在诸多不足,如场景过于简化、人类行为不自然等。
以下表格为现有的社交导航模拟器与数据集统计特性对比:
为弥补这些缺陷,研究人员构建了两个新数据集——Social-HM3D和Social-MP3D,具备以下优势:
研究团队表示,这两个基准既平衡了人机交互的社交密度,同时也避免了过度拥挤。
这一基准为社交导航研究提供了更贴近真实场景的评估环境,并且支持推广到有人环境下的物体导航、图像导航等下游任务。
在定量分析方面,实验表明,Falcon在目标达成和社会合规方面表现出色:
其一是目标达成。
在Social-HM3D中达到55.15%的成功率和成功路径效率(SPL,Success weighted by Path Length)。
即使在未训练过的Social-MP3D数据集上,也能取得55.05%的成功率。
其二是社会合规。
在保持社交距离和避免碰撞方面表现良好,达到接近90%的个人空间合规性(Personal Space Compliance, PSC)和接近42%的人机碰撞率。
定量结果表明,Falcon不仅在已知环境中表现出色,还能有效适应未见过的复杂动态环境。
在定性分析方面,下图的定性结果展示了Falcon在不同典型场景中的优越性——
第一个是人员跟随情境。
Falcon通过预测行人未来轨迹,主动调整速度和路径,保持安全距离。
第二个是复杂交叉路口。
面对行人和静态障碍物同时存在的场景,Falcon提前预测并规划出安全高效的路径。
第三个是正面接近情境。
传统的RL算法Proximity-Aware试图直接从行人面前穿过导致碰撞,Falcon通过预测行人未来轨迹,提前调整路径并安全避开。
各项实验后,团队有了三个关键发现:
发现1,未来感知算法优于以往实时感知算法。
静态路径规划算法(如A*)无法适应动态环境,而实时感知方法(如ORCA和Proximity-Aware)虽能被动避障,但仍存在延迟反应问题。
相比之下,Falcon能够主动预测行人轨迹并提前调整路径,显著提升了安全性和效率。
发现2,辅助任务有助于提高性能,其中轨迹预测最重要。
下表展示了不同辅助任务对导航性能的影响。
其中轨迹预测(SPM.Traj)效果最为显著,成功率从40.94%提升至54.00%。
发现3,SCP和SPM相辅相成,改善性能并加快训练收敛。
下图图中为消融研究中的训练曲线。
可以观察到,具有SPM和SCP的完整Falcon模型收敛更快,性能更好。
SCP在提升模型性能方面发挥关键作用,尤其是与SPM集成后,整体性能进一步提升(从53.63%提高至55.15%),并加快训练收敛速度。
项目主页:
https://zeying-gong.github.io/projects/falcon/
论文链接:
https://arxiv.org/abs/2409.13244
代码链接:
https://github.com/Zeying-Gong/Falcon
文章来自于“量子位”,作者“龚泽颖”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md