奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质
申请号:CN202411864494
申请日期:2024-12-17
公开号:CN119721111A
公开日期:2025-03-28
类型:发明专利
摘要
本公开提供一种奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质,涉及计算机技术领域。奖励模型训练方法包括:构建样本数据集,其中样本数据集包括用于目标物选址的多个样本状态信息,与第t个样本状态信息对应的第t个样本动作信息,和第t个样本动作信息的奖励值标注信息,第t+1个样本状态信息为执行第t个样本动作信息后得到的样本状态信息,,N为样本状态信息总数;利用奖励模型对第t个样本状态信息、第t个样本动作信息和第t+1个样本状态信息进行处理,得到第t个样本动作信息的奖励值;根据第t个样本动作信息的奖励值和第t个样本动作信息的奖励值标注信息,对奖励模型进行训练。
技术关键词
智能体训练方法 模型训练方法 样本 选址方法 状态更新 存储器 处理器 视频采集装置 模型训练装置 选址模型 指令 可读存储介质 计算机程序产品 数据 参数 关系