AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决策。

来自主题: AI技术研报
7122 点击    2025-02-21 14:28
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了!

来自主题: AI技术研报
6221 点击    2025-02-18 20:07
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。

来自主题: AI技术研报
5994 点击    2025-02-12 11:33
朱哲清,从Meta走出的AI实战派,为什么说现在的Agent还都不够智能?让RL理论走进现实的破局之道

朱哲清,从Meta走出的AI实战派,为什么说现在的Agent还都不够智能?让RL理论走进现实的破局之道

朱哲清,从Meta走出的AI实战派,为什么说现在的Agent还都不够智能?让RL理论走进现实的破局之道

本期我们有幸邀请到了Pokee AI创始人朱哲清Bill,凭借Bill在Meta和斯坦福大学的丰富经验,尤其是在大规模部署强化学习模型服务数十亿用户方面的实践,他发现了强化学习的巨大潜力。Pokee AI致力于开发卓越的交互式、个性化、高效的AI Agent,结合团队深厚的强化学习专长,打造具备规划、推理和工具使用能力的解决方案,同时减少现有 AI 系统的幻觉问题。

来自主题: AI资讯
8394 点击    2025-02-11 14:03
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。

来自主题: AI技术研报
7348 点击    2025-02-10 17:19
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。

来自主题: AI技术研报
6292 点击    2025-02-07 16:53
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

一项非常鼓舞人心的发现是:DeepSeek-R1-Zero 通过纯强化学习(RL)实现了「顿悟」。在那个瞬间,模型学会了自我反思等涌现技能,帮助它进行上下文搜索,从而解决复杂的推理问题。

来自主题: AI技术研报
8144 点击    2025-02-07 15:51
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

来自主题: AI技术研报
6482 点击    2025-02-05 16:54
28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理

28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理

28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理

2028年,预计高质量数据将要耗尽,数据Scaling走向尽头。2025年,测试时计算将开始成为主导AI通向通用人工智能(AGI)的新一代Scaling Law。近日,CMU机器学习系博客发表新的技术文章,从元强化学习(meta RL)角度,详细解释了如何优化LLM测试时计算。

来自主题: AI技术研报
6167 点击    2025-01-27 14:03