AI资讯新闻榜单内容搜索-Zero

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

强化学习（RL）+真实搜索引擎，可以有效提升大模型检索-推理能力。

来自主题: AI技术研报

7197 点击 2025-05-17 15:41

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

不用引入外部数据，通过自我博弈（Self-play）就能让预训练大模型学会推理？

来自主题: AI技术研报

5782 点击 2025-05-12 15:18

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

在人工智能领域，推理能力的进化已成为通向通用智能的核心挑战。近期，Reinforcement Learning with Verifiable Rewards（RLVR）范式下涌现出一批「Zero」类推理模型，摆脱了对人类显式推理示范的依赖，通过强化学习过程自我学习推理轨迹，显著减少了监督训练所需的人力成本。

来自主题: AI技术研报

6768 点击 2025-05-08 14:49

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明，大规模强化学习已成为一种极为有效的方法，能够激发大型语言模型（LLM) 的复杂推理行为并显著提升其能力。

来自主题: AI技术研报

6700 点击 2025-04-23 14:04

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

人和智能体共享奖励参数，这才是强化学习正确的方向？

来自主题: AI技术研报

6593 点击 2025-04-12 21:59

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

其实大模型在DeepSeek-V3时期就已经「顿悟」了？

来自主题: AI技术研报

9083 点击 2025-03-22 15:46

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了，就是没有开源训练代码和数据。现在，开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。

来自主题: AI技术研报

7737 点击 2025-02-22 21:30

最低调“六小虎”阶跃星辰开年首秀：Agent落地智能终端，印奇也来了｜最前线

回应DeepSeek，阶跃星辰亮出“三件套”：开源，多模态推理，AI Agent。

来自主题: AI资讯

5400 点击 2025-02-22 13:26

李飞飞看中的万亿赛道，中国首个自研空间智能AI登场！单张图即生3D世界

中国首个全自研空间智能AI诞生了，单图即可生成360度无限3D场景，实时互动自由探索。这不仅是技术的革新，更预示着，游戏电影等领域即将迎来颠覆性的变革。

来自主题: AI技术研报

6649 点击 2025-02-14 16:11

一图一3D世界，视频还可交互，昆仑万维「空间智能」开年首秀来了

2025 年普遍被认为是智能体爆发元年，AI 应用将出现井喷式增长。然而，在大家纷纷将目光投向智能体的同时，另一个 AI 领域也可能迎来它的「ChatGPT 时刻」。

来自主题: AI资讯

5422 点击 2025-02-14 13:38

AI资讯新闻榜单内容搜索-Zero

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

最低调“六小虎”阶跃星辰开年首秀：Agent落地智能终端，印奇也来了｜最前线

李飞飞看中的万亿赛道，中国首个自研空间智能AI登场！单张图即生3D世界

一图一3D世界，视频还可交互，昆仑万维「空间智能」开年首秀来了

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世