
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要
来自主题: AI技术研报
8286 点击 2024-03-28 09:59
RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要