基于智能体训练的奖励生成方法及相关装置

申请号：CN202511195408

申请日期：2025-08-25

公开号：CN121031708A

公开日期：2025-11-28

类型：发明专利

摘要

本公开提供一种基于智能体训练的奖励生成方法及相关装置，涉及计算机技术领域。该方法为：对结构化环境数据进行处理，获得不同维度的局部奖励信息；所述结构化环境数据为对智能体针对的外部环境所采集的外接环境数据处理后所获得的；对不同维度的奖励的权重信息进行调整，获得不同维度的奖励的融合权重信息；根据所述不同维度的局部奖励信息和不同维度的奖励的融合权重信息，确定综合奖励信息，以基于所述综合奖励信息对所述智能体进行策略更新。

技术关键词

策略更新生成方法轻量化神经网络数据输入接口计算机程序产品处理器复杂度生成装置动态处理单元非线性阶段电子设备指令存储器在线场景周期参数