
「让JEPA首次飞上无人机」
图灵奖得主杨立昆提出的JEPA世界模型理论,终于在敏捷无人机机载高频控制场景完成工程落地了。
伯克利、纽约大学、布朗大学联合发布SkyJEPA,由杨立昆作为核心作者参与,是业内首套适配四旋翼闭环控制的JEPA完整框架。
整套方案避开传统自回归动力学固有的长时序误差漂移问题,搭配物理映射探针与全域随机仿真数据集,仅依靠仿真数据就能直接在室外实机完成复杂轨迹跟踪;
更换桨、加装载荷等硬件失配场景下,轨迹跟踪误差较主流神经网络基线降低30%以上,补齐无人机世界模型长时序稳定、物理可解释、机载实时、零样本泛化四大核心短板,为低成本、低风险无人机自主飞行提供全新技术路线。

图| 三类主流自监督学习架构对比示意图(最后一个为JEPA)©【深蓝 AI】编译
想要看懂SkyJEPA的创新价值,先要理清目前主流无人机动力学建模三条路线各自的短板,这也是论文全部设计的出发点。
1. 第一性物理解析模型
依靠刚体、空气阻力、电机力矩方程搭建理论模型,计算速度快、完全可解释,但现实容错极低。更换螺旋桨、加装货物、电机老化、阵风扰动都会改变动力学参数,每次硬件改动都要重新系统辨识、人工调参,高机动飞行下气动力、桨机耦合等非线性效应无法精准建模,长距离飞行轨迹偏移严重,仅能支撑低速悬停场景。
2. 自回归神经网络动力学(当前行业主流)
离线采集飞行轨迹训练网络,单步预测表现尚可,但底层逻辑存在致命缺陷:每一步预测结果循环作为下一帧输入,微小误差会持续累积。论文实验数据显示,传统自回归模型推演60步后复合误差比值达到2.4,姿态误差突破50度,轨迹彻底违背物理规律。即便叠加物理正则、在线微调,也只能小幅缓解漂移,无法根除迭代带来的误差放大问题,且模型绑定训练时的无人机硬件,改装后精度断崖下跌。
3. 早期JEPA机器人方案(机械臂/地面导航)
作为JEPA理论提出者,杨立昆此前相关研究集中在视觉识别、地面机器人路径规划、机械臂操作领域。这类JEPA方案仅在潜空间做高层运动预判,缺少对接控制器的物理转换模块,同时未适配无人机20Hz以上高频控制、SO(3)姿态流形、四电机耦合约束等特殊需求,只能离线推演,无法接入MPPI、NMPC闭环控制器,始终停留在理论验证阶段,难以实装飞行器。

图| 四旋翼世界模型四大核心性能需求示意图©【深蓝 AI】编译
三类方案各有局限,且无法同时解决“长时序推演不漂移、无需大量高危实机试飞、硬件改装不用重新训练、边缘板卡实时运行”四大工程诉求,SkyJEPA正是杨立昆团队将JEPA理论适配机载控制场景的针对性解法。
整套系统由JEPA潜态动力学、物理启发探针、自动化域随机仿真管线三大模块组成,配套轻量化MPPI控制器,网络总参数量仅9K,可流畅运行在Jetson Orin NX这类低成本机载嵌入式设备。

图| SkyJEPA 完整框架总览图©【深蓝 AI】编译
2.1 JEPA潜态动力学模型:从根源切断误差累积链路
遵循杨立昆JEPA核心设计哲学:放弃直接预测原始位置、姿态等高维物理状态,转而编码时序信息至低维抽象潜空间,仅预测未来表征,不强制重建全部观测噪声。
模型流程分为编码与潜态推演两步:先用时序卷积网络TCN处理0.5s窗口内的历史状态、电机推力序列,输出稳定潜特征;再依靠单层GRU递归推演多步未来潜向量。
训练损失分为两项:主损失约束推演潜向量与真实编码向量对齐;配套SIGReg各向同性高斯正则,规避网络表征坍缩问题。对比VICReg、BYOL等多重正则方案,SIG仅需单一调参系数,大幅降低工程调试成本。

图| 模型两阶段训练流程图©【深蓝 AI】编译
论文提出时序拉直指标量化潜空间平滑度:传统自回归模型时序平滑均值为-0.4,SkyJEPA可达0.75,潜空间轨迹近似平滑直线,不会频繁震荡转向,天然抑制误差叠加。60步长时序推演后,基线误差增长率0.23,SkyJEPA仅0.11,长期稳定性差距显著。

图| 时序拉直指标©【深蓝 AI】编译
时序平滑、复合误差仅代表离线无校正纯推演效果,真实飞行中控制器会持续修正偏差,离线误差差距不会完全复刻,但能大幅削减控制器修正幅度,减少电机频繁满负荷运转。
2.2 物理启发探针(PI Prober):JEPA落地机载控制关键桥梁
此前JEPA难以用于飞行器闭环控制,核心卡点是抽象潜向量无法转化控制器可用的位置、角速度、姿态数据。
SkyJEPA采用两阶段训练机制:潜态网络训练完成后完全冻结权重,单独训练物理探针。
探针仅输出平动、转动加速度残差项,叠加标准四旋翼刚体积分方程迭代更新位姿,积分过程严格采用SO(3)指数映射,规避欧拉角奇异问题。简单来说,基础运动规则由固定物理方程保证,网络仅拟合空气阻力、电机延迟等难以建模的残余非线性。
消融实验差异直观:普通MLP解码器搭配JEPA,60步推演平均位置误差5.56m;替换物理探针后直接降至1.43m,姿态误差从40.2°压缩至4.71°,降幅超85%。所有输出状态具备明确物理含义,可直接代入MPPI完成轨迹代价计算、电机限幅约束。

图| 多模型开环推演误差对比曲线©【深蓝 AI】编译
2.3 域随机自动仿真数据集:摆脱高危实机采集依赖
无人机野外高机动试飞成本高、炸机风险大,SkyJEPA搭建全自动仿真数据生成管线,整套训练数据完全在虚拟环境生成,无需人工操控实机采集样本。

图| 仿真数据集所用域随机化参数表©【深蓝 AI】编译

图| 室外闭环实机测试三类工况示意图©【深蓝 AI】编译
论文提出TDQ轨迹分布质量分数,量化数据集状态覆盖、动力学多样性;数据集规模提升时TDQ同步上涨、预测误差持续下降,百万样本后性能趋于饱和,证明该管线可高效复刻真实飞行器动力学特征。

图| 数据集 TDQ 分数与状态预测误差关系图©【深蓝 AI】编译
客观局限:仿真无法完全复刻极端湍流、机身微小形变、传感器杂波,大风环境下零样本精度会明显下滑,极致鲁棒场景仍需少量实机数据补充微调。
2.4 轻量化机载MPPI控制器适配

图| MPPI 控制器超参数配置表©【深蓝 AI】编译
训练完成的SkyJEPA通过TensorRT量化加速,嵌入采样型MPPI控制器,单周期总耗时控制在10ms以内,满足无人机100Hz实时控制硬性要求。
控制器每轮采样512组电机推力候选序列,经潜态模型推演15步轨迹,结合位置、姿态加权代价筛选最优控制量,滚动时域循环更新,全套推理、优化流程全部机载运行,地面站仅负责起降顶层指令下发。
当前无人机动力学建模分为三类主流路线,结合JEPA原生技术特点,从长时序稳定性、sim2real零样本泛化、机载实时性、硬件容错四个维度横向对比,客观定位该工作行业位置。

图| Orin NX 机载推理耗时曲线©【深蓝 AI】编译
1. 残差自回归神经网络(NeuroBem等)
优势:架构简单、训练代码成熟;短板迭代误差持续放大,更换载荷、桨叶后精度暴跌,必须重新采集实机数据微调,室外八字轨迹位置RMSE可达0.51m,同场景SkyJEPA仅0.35m,误差降低30%以上。
2. 在线自适应动力学模型
优势:飞行中实时更新网络适配环境;短板机载算力开销巨大,小型边缘硬件难以承载,参数更新阶段存在短暂失控风险,且全程依赖实时实机数据采集。
3. 普通重建类潜态模型
优势:潜空间平滑度尚可;短板必须完整重建观测数据,推理开销更高,无物理映射模块,仅能离线预测,无法对接闭环控制器。
SkyJEPA独有的核心竞争力,是首次将杨立昆JEPA理论完整落地高频无人机控制:依靠潜空间预测从底层缓解误差漂移,搭配物理探针打通表征到物理状态的转换链路,结合全域随机仿真实现纯训练数据零实机部署。
同时也要客观认识局限性:当前模型输入仅依赖GPS+IMU状态信息,未融合RGB-D视觉,室内无GPS、障碍物避障场景无法直接使用;架构专为四旋翼设计,固定翼、大型多轴飞行器需要重新调整编码器与积分模块;仅输出状态预测,不支持图像生成,无法用于视觉仿真、图像合成类任务。
实验分为离线开环推演、室外标准轨迹零样本跟踪、硬件改动鲁棒性三大板块,全部数据来自60×70米室外空域真实试飞,区分指标纸面数值与实际落地意义,不单纯堆砌SOTA结果。
4.1 离线开环误差实验
核心指标复合比率CR、误差增长率ER:推演60步后传统基线CR=2.4,SkyJEPA仅1.4;单步新增误差基线0.23、本文0.11。
该指标仅代表无控制器校正的纯推演场景,真实飞行中每一步都会修正偏差,离线巨大误差差距不会完全体现在实机,但能显著降低控制器修正负荷,减少硬件损耗。

图| 递归推演误差分析图©【深蓝 AI】编译
补充噪声鲁棒测试:逐步给观测叠加高斯噪声,基线误差涨幅远高于SkyJEPA,适配机载IMU、GPS自带常规噪声,野外飞行稳定性更强。
4.2 室外标准轨迹零样本跟踪
圆形、椭圆、八字、鱼形、李萨茹五种高速机动轨迹,模型全程未经过任何实机微调,直接从仿真迁移至真机。
基线自回归模型位置RMSE区间0.390.61m,姿态误差11.9529.16°;SkyJEPA位置误差0.240.45m,姿态7.8719.43°,平均跟踪误差下降30%~50%,多次试飞轨迹方差更小,重复一致性更强。

图| 真实场景零样本轨迹跟踪效果图©【深蓝 AI】编译
飞行速度、机动幅度越高,仿真与现实域间隙越明显,李萨茹高速轨迹下两类方案误差差距小幅收窄,但SkyJEPA依旧保持稳定领先。

图| 真实场景多轨迹闭环跟踪定量结果表©【深蓝 AI】编译
4.3 硬件改动鲁棒实验(核心工程价值)
行业多数动力学模型更换桨、加装载荷后性能断崖下跌,本实验不做任何重训、微调,分别测试换螺旋桨、加装300g载荷两类常见改装工况:

图| 硬件改动场景跟踪效果图©【深蓝 AI】编译
两类工况姿态误差平均降低35%,证明域随机仿真让模型学到通用飞行器动力学表征,而非绑定单一硬件,对模块化巡检、物流无人机、多机集群场景具备极高落地价值。

图| 更换螺旋、加装载荷场景闭环跟踪定量表©【深蓝 AI】编译
工程落地实际收益

图| 各类神经网络动力学框架开环预测消融结果表©【深蓝 AI】编译
当前无法忽视的短板
SkyJEPA完成杨立昆JEPA世界模型理论从图像、导航向高频飞行器控制的落地闭环,跳出自回归预测与生俱来的误差累积缺陷,通过物理探针补齐潜表征与控制器之间的断层,搭配自动化域随机仿真管线解决实机数据采集痛点,同时兼顾嵌入式硬件实时运行需求。
这套方案证明,依靠多样化仿真数据,JEPA架构可以实现室外无人机零样本敏捷飞行控制,提供一套兼顾精度、泛化性与低成本的动力学建模完整思路。
参考论文:
论文标题:SkyJEPA: Learning Long-Horizon World Models for Zero-Shot Sim-to-Real Control of Quadrotors
论文链接:https://arxiv.org/pdf/2606.23444
文章来自于"深蓝AI",作者 "深蓝学院"。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner