一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO…… 关键词: AI,RLHF,RLAIF,PPO,DPO,模型训练 为了对齐 LLM,各路研究者妙招连连。 来自主题: AI技术研报 8129 点击 2024-08-05 14:09