与上一次AlphaGo下围棋不同,这次不是脑力运动,而是在真实物理环境中的竞技体育项目——“空中F1”无人机竞速。
与AlphaGo也有相同之处,核心技术都是深度强化学习。
成果来自苏黎世大学,作者之一Davide Scaramuzza认为,这是国际象棋的深蓝、围棋的AlphaGo之后的又一大突破。
微软高级研究工程师Shital Shah认为这比AlphaGo更难,也更难获得认可,但仍是历史性的里程碑。
先介绍一下这个运动项目:FPV(第一人称视角)无人机竞速。
人类选手会通过机载摄像头传输的视频,从无人机的视角观察环境,穿越障碍。
赛道由七个方形大门组成,每一圈都必须按顺序通过。要赢得比赛,参赛者必须连续领先对手完成三圈。
两台无人机同时出发,正面对决,最高速度可达每小时100公里,同时承受数倍于重力的加速度。
这次与AI同台的是2019年无人机竞速联盟世界冠军Alex Vanover、MultiGP国际公开赛世界杯冠军Thomas Bitmatta和三届瑞士全国冠军Marvin Schaepper。
对AI来说,要达到专业人类选手的水平非常有挑战性,因为无人机需要在物理极限下飞行,同时仅通过机载传感器估计速度和位置。
为解决这些挑战,苏黎世大学设计了Swift,由两个关键模块组成:
感知系统,将高维视觉信息和惯性信息转换为低维表示。
控制策略,感知系统产生的低维表示并产生控制命令。
其中,感知系统主要是一个VIO(Visual-Inertial Odometry)模块,同时利用视觉和惯性传感器对自身定位和对环境建模。
VIO估计与神经网络相结合,用于检测障碍门的四个角点。
控制策略是一个前馈神经网络,使用无模型的On-policy深度强化学习进行模拟训练,奖励目标结合了向下一个门的中心前进,和保持下一个门在摄像机视野内。
为了弥合模拟和物理世界之间感知和动力学上的差距,使用了从物理系统中收集的数据,驱动一个MLP残差模型。
在比赛开始前,人类选手在指定赛道上有一周的练习时间,赛道包含“Split-S”等高难度机动动作。
具体规则还有:由声学信号(发令枪)开启比赛,如果发生碰撞也可以继续比赛,如果两架无人机都坠落则飞得远的获胜。
最终在与三位人类选手的比赛中,Swift分别拿下了9局5胜,7局4胜,和9局6胜的成绩。
在Swift输掉的比赛中,有40%是因为与对手发生碰撞,40%是因为与门发生碰撞,20%是因为速度比人类慢。
Swift还在比赛中取得最快记录,人类选手的最佳时间领先半秒。
在累计300圈的数据中,Swift平均时间更短,方差更低,代表AI每圈都稳定追求更快圈速。
而人类则会在自己领先时保持一个较慢的速度,降低碰撞的风险,表现出更大的方差。
这也体现出当前的Swift系统无法得知对手的情况,在领先时不够稳,落后时又不够浪。
在论文中,团队还讨论了AI与人类选手的更多对比。
首先,Swift利用了机载惯性传感器,这类似于人类的前庭系统。
但反而是人类在这个项目上无法使用前庭系统,因为他们不随无人机一起移动,感受不到加速度。
另外,Swift的传感器延迟更低为40毫秒,专业人类选手平均能做到220毫秒。
但Swift的摄像头刷新率有限,只有30Hz,人类使用的摄像头则120Hz。
最后,人类有更高的韧性。
比如即使在全速坠机了只要设备没坏就能继续比赛,但Swift没有接受碰撞后恢复的训练。
如果改变比赛现场的光照环境,Swift的感知系统就会失效。
作者认为,这项研究可能会激发在其他物理系统(例如自动驾驶汽车、飞机和机器人)中跨广泛应用部署基于混合学习的解决方案。
论文地址:https://www.nature.com/articles/s41586-023-06419-4
参考链接:[1]https://x.com/davsca1/status/1696938013421429111
文章转载自公众号量子位,作者梦晨
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda