
棋盘变战场,大模型却呆了?普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈
棋盘变战场,大模型却呆了?普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈当棋盘变成战场,当盟友暗藏心机,当谈判需要三十六计,AI 的智商令人叹息!
来自主题: AI技术研报
6935 点击 2025-03-25 09:50
当棋盘变成战场,当盟友暗藏心机,当谈判需要三十六计,AI 的智商令人叹息!
在阿布扎比的 F1 赛道上,8 辆赛车使用相同的轮胎,相同的发动机,完全一样的车身,唯一不同之处就是自动驾驶代码。
进入现今的大模型 (LLM) 时代,又有研究者发现了左右互搏的精妙用法!近日,加利福尼亚大学洛杉矶分校的顾全全团队提出了一种新方法 SPIN(Self-Play Fine-Tuning),可不使用额外微调数据,仅靠自我博弈就能大幅提升 LLM 的能力。