基于强化学习的LLM输出稳定性控制方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于强化学习的LLM输出稳定性控制方法及系统
申请号:CN202511315610
申请日期:2025-09-15
公开号:CN120804310B
公开日期:2025-11-21
类型:发明专利
摘要
本发明提供基于强化学习的LLM输出稳定性控制方法及系统,所述方法包括:对文献数据进行多模态结构化解析,提取内容单元并构建特征向量集合和关联映射表;并行驱动文本逻辑处理模块和视觉语义处理模块对跨模态任务单元解读,构建初始摘要集合;在跨模态一致性奖励驱动的迭代闭环中,根据当前联合状态构建联合动作,由跨模态一致性仲裁器计算奖励信号并构建近端策略优化算更新策略网络,直至奖励信号收敛;基于关联映射表,驱动序列到序列语言模型对最终联合状态集合的最终文本摘要和信息描述集合重构,生成最终摘要。本发明通过结构化解析与多模态协同控制,确保摘要内容的一致性与稳定性,适用于自然语言处理与强化学习领域。
技术关键词
稳定性控制方法 文本 摘要 语义 跨模态 模块 生成特征向量 逻辑 状态更新 策略 稳定性控制系统 闭环 多模态 筛选方法 序列 预定义动作 视觉特征提取 数据 自然语言