摘要
本发明公开了一种可调优的大语言模型主动推荐智能体系统,所述系统包括:执行者‑顾问框架,由执行者模块和顾问模块构成,其中:所述顾问模块被配置为:基于用户历史数据、当前状态及环境奖励,生成结构化指导信号;所述执行者模块被配置为:根据当前状态和所述指导信号生成推荐动作;评论者模块,被配置为:计算状态值和动作优势值;优化模块,被配置为:基于所述动作优势值,通过直接偏好优化算法对执行者模块和顾问模块的基础大语言模型进行微调。本发明可在给出目标物品的情况下逐步挖掘用户的潜在兴趣,扩展用户兴趣边界,提高对目标物品的兴趣,能够适用于各大网络社交平台与电商平台等推荐场景。