# 热门搜索 #
搜索
搜索: IFT
一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐

来自主题: AI资讯
3780 点击    2024-08-22 17:04