
将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率
将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。 北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。
来自主题: AI技术研报
6534 点击 2024-11-27 14:35
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。 北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。