港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
5638点击    2025-07-28 10:29

在复杂的开放环境中,让足式机器人像人类一样自主完成「先跑到椅子旁,再快速接近行人」这类长程多目标任务,一直是 robotics 领域的棘手难题。传统方法要么局限于固定目标类别,要么难以应对运动中的视觉抖动、目标丢失等实时挑战,导致机器人在真实场景中常常「迷路」或「认错对象」。


香港科技大学广州联合北京人形创新中心重磅推出的 LOVON(Legged Open-Vocabulary Object Navigator)框架,为这一难题带来了创新性的解决方案。它首次将大语言模型(LLMs)的任务规划能力、开放词汇视觉检测的泛化能力,以及精准的语言 - 运动映射模型融合在一起,让足式机器人在动态、非结构化环境中也能高效完成长程目标导航,实现了足式机器人在开放世界中对动态目标的长视野精准追踪,兼容 Unitree Go2、B2、H1-2 等主流平台,用「即插即用」的特性打破了传统机器人导航的场景限制。


港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!


港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!


  • 论文:《LOVON: Legged Open-Vocabulary Object Navigator》


  • LOVON 论文地址: https://arxiv.org/pdf/2507.06747


  • 项目地址:https://daojiepeng.github.io/LOVON/


  • 代码地址:https://github.com/DaojiePENG/LOVON


  • 视频地址:https://www.bilibili.com/video/BV1xh3ezJEJn/


攻克开放世界导航难题,LOVON 强势登场


开放世界环境中的目标导航,对于机器人系统而言是一项艰巨且普遍存在的挑战。尤其是执行长视野任务时,不仅需要机器人具备开放世界物体检测能力,还需进行高级任务规划。传统方法往往难以有效整合这些关键组件,这极大地限制了它们应对复杂、长距离导航任务的能力。


LOVON 框架应运而生,它巧妙地将大型语言模型用于分层任务规划,并与开放词汇视觉检测模型深度融合,专为在动态、非结构化环境中实现高效的长距离目标导航而打造。面对真实世界中诸如视觉抖动、复杂环境以及目标临时丢失等棘手问题,LOVON 设计了专门的解决方案,例如用于视觉稳定的拉普拉斯方差滤波技术。同时,为机器人开发了一套功能性执行逻辑,确保 LOVON 在自主导航、任务适应以及稳健完成任务等方面具备强大的能力。


三大核心模块协同,构建智能导航闭环


港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!


LOVON 创新性地整合了三大核心模块,打通了「语言 - 视觉 - 运动」的闭环。


  • LLM 任务规划器:如同为机器人赋予了人类般的思考能力,能够将长视野任务进行拆解。比如,它可以把「先跑向椅子,再快速靠近行人」这样的复杂指令,细致地分解为一系列连续的子任务,并根据实际情况动态调整执行顺序,让机器人能够有条不紊地完成复杂任务。


  • 开放词汇视觉检测:突破了传统预定义类别的限制,使机器人能够识别从常见的 「背包」「盆栽」到「汽车」「宠物」等各类丰富多样的目标。这一特性让机器人能够轻松适配日常生活中的各种场景,无论是在室内环境中寻找特定物品,还是在户外环境中识别动态目标,都能应对自如。


  • 语言 - 运动模型(L2MM):该模块能够将文字指令与视觉反馈直接转化为精确的运动向量,从而精准地控制机器人的速度和方向。这意味着机器人可以根据接收到的指令,迅速做出反应,实现「说走就走,说停就停」的精准运动控制,大大提高了任务执行的效率和准确性。


抗干扰视觉处理,解决画面抖动难题


足式机器人在运动过程中,机身的抖动常常导致获取的视觉画面模糊不清,这使得目标检测频繁失效,成为影响机器人导航性能的一大障碍。为了解决这一「看不清楚」的老大难问题,LOVON 提出了基于拉普拉斯方差滤波技术。通过对图像清晰度特征进行深入分析,该技术能够自动识别并过滤掉模糊的图像帧,同时用最近的清晰帧进行替换。再配合滑动平均滤波,有效地将机器人有效检测帧的比例提升了 25%。


这一技术的应用,使得机器人在奔跑、上下楼梯等运动状态下,依然能够稳定地锁定目标,为后续的导航决策提供可靠的视觉信息。


自适应执行逻辑,赋予机器人「随机应变」能力


在复杂多变的真实世界中,机器人可能会面临各种突发情况,如目标突然丢失、指令发生更新或者受到外力干扰等。LOVON 的自适应执行逻辑为机器人应对这些情况提供了有力支持。当目标丢失时,机器人会自动切换至「搜索模式」,通过左右旋转扫描周围环境,迅速重新定位目标;当接收到新的指令时,能够无缝衔接并执行新任务,确保任务的连贯性;即便在受到外力碰撞等干扰时,也能快速重新规划路径,继续朝着目标前进。


这种「随机应变」的能力,让机器人在真实世界的复杂场景中能够保持稳定的任务执行能力,极大地提升了其适应性和可靠性。


从仿真到真实世界:多项指标刷新纪录


经过严格测试,LOVON 在仿真与真实环境中均展现出超越传统方法的性能:


GymUnreal 仿真环境:在停车场、城市街道、雪地村庄等多种复杂仿真场景中,LOVON 展现出了令人瞩目的性能。其成功率(SR)高达 1.00,大幅超越了传统方法,例如 EVT 的 0.94。而且,LOVON 在训练效率上也具有显著优势,仅需 1.5 小时即可完成训练,相比同类最优模型 TrackVLA 的 360 小时,效率提升了惊人的 240 倍。这表明 LOVON 不仅在任务执行的准确性上表现出色,还能在更短的时间内完成模型训练,为实际应用节省了大量的时间和资源。


港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!


真实世界:在 Unitree Go2、B2、H1-2 等不同足式机器人上,LOVON 实现了四大突破:


  • 开放世界适配:它能够轻松识别从大型汽车到小型背包等各类大小不一、形态各异的目标,在完全陌生的环境中也能快速适应并执行任务,体现出了卓越的开放世界适配能力;


  • 多目标长程追踪:在多目标长视野追踪任务中,LOVON 能够按照指令依次完成「找椅子→找行人→找背包」等复杂任务,整个过程流畅无中断,展现出了出色的任务规划和执行能力;


  • 动态环境鲁棒性:在动态跟踪场景中,无论是在平坦道路上,还是在螺旋楼梯、杂草丛等复杂地形中,LOVON 都能稳定地跟随移动目标,例如在遛狗场景中准确跟随移动的人和宠物;


  • 抗干扰能力:即便目标位置发生移动或者机器人自身受到碰撞等干扰,LOVON 依然能够快速重新锁定目标并继续完成任务,彰显了其强大的抗干扰能力。


港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!


更为重要的是,LOVON 具备出色的「即插即用」特性,无需进行复杂的定制化改造,即可轻松部署于 Unitree Go2、B2、H1 - 2 等多种主流足式机器人平台,为家庭服务、工业巡检、野外科研等多个领域的实际应用提供了坚实的技术支撑。


推动足式机器人应用变革,开启智能服务新篇章


LOVON 框架的出现,犹如为足式机器人导航领域注入了一股强大的创新力量。它不仅填补了足式机器人开放词汇长视野导航的技术空白,更通过「通用框架 + 轻量化部署」的创新设计理念,为先进机器人技术从实验室走向广泛实际应用搭建了一座坚实的桥梁。


随着 LOVON 的不断推广和应用,我们有理由相信,足式机器人将在更多领域发挥重要作用,为人们的生活和工作带来更多便利和创新。无论是在智能家居环境中协助人们完成日常任务,还是在工业生产中实现高效的巡检和操作,亦或是在野外科研探索中提供可靠的支持,LOVON 都有望成为推动足式机器人应用变革的关键技术,开启智能服务的崭新篇章。


想了解更多关于 LOVON 的详细信息,可访问 LOVON 项目主页:https://daojiepeng.github.io/LOVON/ ,一同探索足式机器人导航的未来新趋势。


文章来自于微信公众号“机器之心”。


关键词: AI , 模型训练 , LOVON , 具身智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI