基于VI策略的off-policy输出反馈数据驱动Q学习的控制方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于VI策略的off-policy输出反馈数据驱动Q学习的控制方法
申请号:CN202410852522
申请日期:2024-06-28
公开号:CN118709559A
公开日期:2024-09-27
类型:发明专利
摘要
本发明公开了一种基于VI策略的off‑policy输出反馈数据驱动Q学习的控制方法、系统、设备及存储介质,所述方法包括:基于单相电压源UPS逆变器的离散时间系统模型,构建逆变器模型的状态空间表达式;基于逆变器模型的状态空间表达式,构建代数黎卡提方程;基于代数黎卡提方程,构建基于状态反馈的VI的off‑policy Q函数;根据基于off‑policy的状态反馈数据驱动Q学习VI算法,采用最小二乘法对off‑policy Q函数求解;通过状态重构引理,将基于状态反馈的VI的off‑policy Q函数推导出基于输出反馈的VI的off‑policy Q函数,以使基于输出反馈的VI的off‑policy Q函数的求解不依赖于系统状态变量的测量。本发明不仅能够准确地控制电力转换和切换操作,以提高系统的能源利用效率,还能够在面对不可测量的状态信息时保持稳定运行,从而提高系统的可靠性和鲁棒性。
技术关键词
状态空间方程 表达式 离散时间采样 信号系统 数据 策略 矩阵 信号发生器 执行存储器存储 逆变器状态 重构 因子 处理器 控制系统 学习算法 可读存储介质 终端设备