微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了
微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了大模型的效果好不好,有时候对齐调优很关键。但近来很多研究开始探索无微调的方法,艾伦人工智能研究所和华盛顿大学的研究者用「免调优」对齐新方法超越了使用监督调优(SFT)和人类反馈强化学习(RLHF)的 LLM 性能。
来自主题: AI资讯
7648 点击 2023-12-06 15:17
搜索
大模型的效果好不好,有时候对齐调优很关键。但近来很多研究开始探索无微调的方法,艾伦人工智能研究所和华盛顿大学的研究者用「免调优」对齐新方法超越了使用监督调优(SFT)和人类反馈强化学习(RLHF)的 LLM 性能。
来自清华大学的研究团队提出了一个深度强化学习算法的模型。基于 15 分钟城市概念,该模型可以进行复杂的城市空间规划。
近日,复旦大学附属中山医院内分泌科李小英、陈颖团队联合北京邮电大学王光宇教授团队首次提出采用基于强化学习算法的AI系统“RL-DITR”制定胰岛素决策策略。
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。