AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

就在刚刚,DeepSeek-Prover-V2技术报告也来了!34页论文揭秘了模型的训练核心——递归+强化学习,让数学推理大提升。有人盛赞:DeepSeek已找到通往AGI的正确路径!

来自主题: AI资讯
7836 点击    2025-05-01 10:49
如何打造TTRL测试时强化学习+Memory的Agent,做经验时代AI的主人。| 最新

如何打造TTRL测试时强化学习+Memory的Agent,做经验时代AI的主人。| 最新

如何打造TTRL测试时强化学习+Memory的Agent,做经验时代AI的主人。| 最新

AI能像人类一样不断从经验中学习、进化,而不仅仅依赖于人工标注的数据?测试时强化学习(TTRL)与记忆系统的结合正在开启这一全新可能!

来自主题: AI技术研报
7940 点击    2025-04-29 16:24
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习(RLVR)的认知。RLVR被认为是打造自我进化大模型的关键,但实验表明,它可能只是提高了采样效率,而非真正赋予模型全新推理能力。

来自主题: AI技术研报
6130 点击    2025-04-28 16:51
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报
5534 点击    2025-04-28 14:09
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源

全球首个去中心化强化学习训练的32B模型——INTELLECT-2震撼发布!无需授权,就能用自家异构计算资源参与其中,让编码、数学与科学领域的推理性能迈向新高度。

来自主题: AI资讯
8994 点击    2025-04-27 09:38
Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源

本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。

来自主题: AI技术研报
6506 点击    2025-04-27 09:22
DeepMind果蝇登Nature,强化学习再立功!AI模拟飞行,逼真到腿毛颤抖

DeepMind果蝇登Nature,强化学习再立功!AI模拟飞行,逼真到腿毛颤抖

DeepMind果蝇登Nature,强化学习再立功!AI模拟飞行,逼真到腿毛颤抖

谷歌DeepMind与HHMI Janelia研究所的科学家们,用AI打造了一个栩栩如生的虚拟果蝇模型。这个模型不仅能精准模拟果蝇的飞行与行走,还通过深度强化学习模仿真实果蝇的行为。

来自主题: AI资讯
9049 点击    2025-04-25 10:31