AI资讯新闻榜单内容搜索-Self-Play

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Self-Play
LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 Orion。

来自主题: AI资讯
8893 点击    2024-08-31 11:19
当LLM学会左右互搏,基础模型或将迎来集体进化

当LLM学会左右互搏,基础模型或将迎来集体进化

当LLM学会左右互搏,基础模型或将迎来集体进化

进入现今的大模型 (LLM) 时代,又有研究者发现了左右互搏的精妙用法!近日,加利福尼亚大学洛杉矶分校的顾全全团队提出了一种新方法 SPIN(Self-Play Fine-Tuning),可不使用额外微调数据,仅靠自我博弈就能大幅提升 LLM 的能力。

来自主题: AI资讯
10334 点击    2024-01-06 12:17