AI资讯新闻榜单内容搜索-self-play

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: self-play

大模型如何泛化出多智能体推理能力？清华提出策略游戏自博弈方案MARSHAL

大模型如何泛化出多智能体推理能力？清华提出策略游戏自博弈方案MARSHAL

大模型如何泛化出多智能体推理能力？清华提出策略游戏自博弈方案MARSHAL

近日，清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习，让大模型在策略游戏中进行自博弈（Self-Play）。实验表明，这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水

来自主题: AI技术研报

8950 点击 2026-01-10 10:16

华人一作！Meta等复刻AlphaZero神话，AI甩开人类自修成神

华人一作！Meta等复刻AlphaZero神话，AI甩开人类自修成神

华人一作！Meta等复刻AlphaZero神话，AI甩开人类自修成神

当模型学会「左右互搏」的那一刻，平庸的模仿时代结束了，真正的硅基编程奇迹刚刚开始。

来自主题: AI技术研报

10358 点击 2025-12-29 09:06

⽆需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

⽆需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

⽆需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案：搜索自博弈 Search Self-play（SSP）⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是：让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」，它们在对抗训练中共同进化，使训练难度随着模型能⼒动态提升，最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。

来自主题: AI技术研报

7003 点击 2025-11-16 10:36

Meta超级智能实验室新论文陷争议！被指忽略大量前人研究

Meta超级智能实验室新论文陷争议！被指忽略大量前人研究

Meta超级智能实验室新论文陷争议！被指忽略大量前人研究

Meta超级智能实验室（MSL）又被送上争议的风口浪尖了。

来自主题: AI技术研报

8260 点击 2025-09-12 11:55

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

不用引入外部数据，通过自我博弈（Self-play）就能让预训练大模型学会推理？

来自主题: AI技术研报

7673 点击 2025-05-12 15:18

OpenAI 将 o1 AI 模型扩展到企业和教育领域，与Anthropic直接竞争

OpenAI 将 o1 AI 模型扩展到企业和教育领域，与Anthropic直接竞争

OpenAI 将 o1 AI 模型扩展到企业和教育领域，与Anthropic直接竞争

o1 模型何以成为企业游戏规则的改变者？

来自主题: AI资讯

7718 点击 2024-09-21 14:51

OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI的self-play RL新模型o1最近交卷，直接引爆了关于对于self-play的讨论。

来自主题: AI技术研报

9540 点击 2024-09-21 14:20

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

Self-play RL 开启 AGI 下半场

来自主题: AI资讯

8810 点击 2024-09-15 16:14

清华、北大等发布Self-Play强化学习最新综述

清华、北大等发布Self-Play强化学习最新综述

清华、北大等发布Self-Play强化学习最新综述

本文作者来自于清华大学电子工程系，北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士，主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

来自主题: AI技术研报

9785 点击 2024-09-10 11:48

LLM 进化分岔口：多模态、成本、代码推理

LLM 进化分岔口：多模态、成本、代码推理

LLM 进化分岔口：多模态、成本、代码推理

头部模型的新一代模型的是市场观测、理解 LLM 走向的风向标。即将发布的 OpenAI GPT-Next 和 Anthropic Claude 3.5 Opus 无疑是 AGI 下半场最关键的事件。

来自主题: AI资讯

9096 点击 2024-09-06 11:44

上一页当前第1页,共2页下一页