AI资讯新闻榜单内容搜索-SFT

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: SFT
深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

最近OpenAI Day2展示的demo可能把ReFT带火了。实际上这不是一个很新的概念,也不是OpenAI原创的论文。 接下来,本文对比SFT、ReFT、RHLF、DPO、PPO这几种常见的技术。

来自主题: AI技术研报
7492 点击    2024-12-10 15:01
一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐

来自主题: AI资讯
4905 点击    2024-08-22 17:04
抱抱脸Open了OpenAI的秘密武器,网易参与复现

抱抱脸Open了OpenAI的秘密武器,网易参与复现

抱抱脸Open了OpenAI的秘密武器,网易参与复现

OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline,罗列了25个关键实施细节。

来自主题: AI技术研报
4585 点击    2024-04-08 09:55