刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习 关键词: StepCoder框架,编译器,强化学校,LLMs,模型训练 StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。 来自主题: AI技术研报 4855 点击 2024-03-15 15:38