基于强化学习的LLM输出稳定性控制方法及系统

申请号：CN202511315610

申请日期：2025-09-15

公开号：CN120804310B

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供基于强化学习的LLM输出稳定性控制方法及系统，所述方法包括：对文献数据进行多模态结构化解析，提取内容单元并构建特征向量集合和关联映射表；并行驱动文本逻辑处理模块和视觉语义处理模块对跨模态任务单元解读，构建初始摘要集合；在跨模态一致性奖励驱动的迭代闭环中，根据当前联合状态构建联合动作，由跨模态一致性仲裁器计算奖励信号并构建近端策略优化算更新策略网络，直至奖励信号收敛；基于关联映射表，驱动序列到序列语言模型对最终联合状态集合的最终文本摘要和信息描述集合重构，生成最终摘要。本发明通过结构化解析与多模态协同控制，确保摘要内容的一致性与稳定性，适用于自然语言处理与强化学习领域。

技术关键词

稳定性控制方法文本摘要语义跨模态模块生成特征向量逻辑状态更新策略稳定性控制系统闭环多模态筛选方法序列预定义动作视觉特征提取数据自然语言