将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率 将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率 关键词: AI,CodeDPO,模型训练,人工智能 代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。 北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。 来自主题: AI技术研报 6669 点击 2024-11-27 14:35