一种基于内外奖励机制强化学习的多无人机目标围捕方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于内外奖励机制强化学习的多无人机目标围捕方法
申请号:CN202511450464
申请日期:2025-10-11
公开号:CN121008591A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种基于内外奖励机制强化学习的多无人机目标围捕方法,涉及无人机控制技术领域。设计内外奖励机制,内外奖励机制包括外在奖励机制和内在奖励机制,外在奖励机制是根据环境依托无人机的个体行为给予的回馈信号构建的,用于增强无人机之间的协作;内在奖励机制是根据无人机状态的变化从自身行为中获得的反馈信号构建的,用于指导无人机自主探索环境和获取新知识;根据外在奖励机制和内在奖励机制,构建损失函数,并根据损失函数,训练策略模型;通过策略模型指导无人机的控制,以实现目标围捕。该方法创新性地设计一种内外奖励机制来提高策略模型在训练过程中的探索性和收敛性,从而使得该方法能够实现多无人机对目标的高效围捕。
技术关键词
环境状态信息 机制 围捕方法 多无人机协同 无人机控制技术 策略网络模型 连续性 静态障碍物 速度 能耗 误差 能量消耗 样本 信号 运动