摘要
本发明公开了基于强化学习的代码审查评论生成方法及系统,属于软件工程与人工智能交叉技术领域,本发明要解决的技术问题为如何提升代码审查的准确性、效率及可扩展性,克服现有工具评论质量低及实用性差的缺陷,技术方案为:收集并预处理代码差异、人类评论及真实修正代码的数据,构建数据集;生成代码审查评论:通过数据集微调预训练大语言模型LLM,并采集代码差异数据,获取审查评论;语义相似性奖励:计算生成评论与真实评论的语义相似度,生成奖励信号R_semantic;后续任务奖励:将生成的评论与代码差异输入代码优化模型,生成修正后代码补丁,并通过评估生成补丁与真实补丁的相似度,生成奖励信号R_task;强化学习微调大语言模型LLM;部署与评论生成。