人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈 关键词: SPPO,对齐,模型训练,自我博弈微调,微调 Richard Sutton 在 「The Bitter Lesson」中做过这样的评价:「从70年的人工智能研究中可以得出的最重要教训是,那些利用计算的通用方法最终是最有效的,而且优势巨大。」 来自主题: AI技术研报 5112 点击 2024-05-12 11:26