
深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO
深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO最近OpenAI Day2展示的demo可能把ReFT带火了。实际上这不是一个很新的概念,也不是OpenAI原创的论文。 接下来,本文对比SFT、ReFT、RHLF、DPO、PPO这几种常见的技术。
来自主题: AI技术研报
7812 点击 2024-12-10 15:01
最近OpenAI Day2展示的demo可能把ReFT带火了。实际上这不是一个很新的概念,也不是OpenAI原创的论文。 接下来,本文对比SFT、ReFT、RHLF、DPO、PPO这几种常见的技术。
为了对齐 LLM,各路研究者妙招连连。