
微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了
微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了大模型的效果好不好,有时候对齐调优很关键。但近来很多研究开始探索无微调的方法,艾伦人工智能研究所和华盛顿大学的研究者用「免调优」对齐新方法超越了使用监督调优(SFT)和人类反馈强化学习(RLHF)的 LLM 性能。
大模型的效果好不好,有时候对齐调优很关键。但近来很多研究开始探索无微调的方法,艾伦人工智能研究所和华盛顿大学的研究者用「免调优」对齐新方法超越了使用监督调优(SFT)和人类反馈强化学习(RLHF)的 LLM 性能。
现代认知科学认为,人类会在头脑中构建关于周围真实世界的抽象模型——世界模型(world model)。获取“世界模型”的问题一直是人工智能研究的焦点。OpenAI 联合创始人兼首席科学家 Ilya Sutskever 认为, ChatGPT 已经学到了关于真实世界的复杂抽象模型。
RLHF今年虽然爆火,但实打实用到的模型并不多,现在还出现了替代方案,有望从开源界“出圈”;大模型透明度越来越低,透明度最高的是Llama 2,但得分也仅有54;
2023 年世界太空周(World Space Week 2023)即将到来,在太空时代庆祝其 66 周年之际,太空网(Space.com)将关注人工智能(AI)的现状及其对天文学和太空探索的影响
最近,红杉资本发布了关于 AI 的第二篇预测文章《Generative AI Act Two》。这是即上一篇预测文章《Generative AI:A Creative New World》发布一年后,又一重量级的迭代型预测。
近日,复旦大学附属中山医院内分泌科李小英、陈颖团队联合北京邮电大学王光宇教授团队首次提出采用基于强化学习算法的AI系统“RL-DITR”制定胰岛素决策策略。
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。