
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。
来自主题: AI技术研报
5213 点击 2024-03-15 15:38
StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。