AI资讯新闻榜单内容搜索-GRPO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: GRPO
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进而启发构建推理模型的新思路。

来自主题: AI技术研报
8692 点击    2025-05-24 14:33
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,

来自主题: AI技术研报
5808 点击    2025-05-16 15:25
DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

来自主题: AI技术研报
6870 点击    2025-05-15 10:47
从思考到行动:大模型自主工具调用能力的深度实现

从思考到行动:大模型自主工具调用能力的深度实现

从思考到行动:大模型自主工具调用能力的深度实现

GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。

来自主题: AI技术研报
5831 点击    2025-04-17 10:00
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。

来自主题: AI技术研报
6466 点击    2025-03-13 14:41
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?

来自主题: AI技术研报
7912 点击    2025-03-11 17:03
32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

32B小模型在超硬核「时间线索」推理谜题中,一举击败了o1、o3-mini、DeepSeek-R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍。

来自主题: AI技术研报
9054 点击    2025-03-09 10:32