一种基于内外奖励机制强化学习的多无人机目标围捕方法

申请号：CN202511450464

申请日期：2025-10-11

公开号：CN121008591A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于内外奖励机制强化学习的多无人机目标围捕方法，涉及无人机控制技术领域。设计内外奖励机制，内外奖励机制包括外在奖励机制和内在奖励机制，外在奖励机制是根据环境依托无人机的个体行为给予的回馈信号构建的，用于增强无人机之间的协作；内在奖励机制是根据无人机状态的变化从自身行为中获得的反馈信号构建的，用于指导无人机自主探索环境和获取新知识；根据外在奖励机制和内在奖励机制，构建损失函数，并根据损失函数，训练策略模型；通过策略模型指导无人机的控制，以实现目标围捕。该方法创新性地设计一种内外奖励机制来提高策略模型在训练过程中的探索性和收敛性，从而使得该方法能够实现多无人机对目标的高效围捕。

技术关键词

环境状态信息机制围捕方法多无人机协同无人机控制技术策略网络模型连续性静态障碍物速度能耗误差能量消耗样本信号运动