大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL 大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL 关键词: 模型训练,人工智能,MARSHAL,AI 近日,清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习,让大模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水 来自主题: AI技术研报 8023 点击 2026-01-10 10:16