AI资讯新闻榜单内容搜索-RL框架

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL框架
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

具体而言,Verlog 是一个多轮强化学习框架,专为具有高度可变回合(episode)长度的长时程(long-horizon) LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则,引入了一系列专门优化手段,从而在任务跨度从短暂交互到数百回合时,依然能够实现稳定而高效的训练。

来自主题: AI技术研报
5891 点击    2025-10-09 11:16
腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」

腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」

腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」

自从 Google Gemini 将数学奥赛的成功部分归功于「并行思维」后,如何让大模型掌握这种并行探索多种推理路径的能力,成为了学界关注的焦点。

来自主题: AI技术研报
7382 点击    2025-09-18 15:04
200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。然而,针对大语言模型的大规模强化学习训练门槛一直很高:

来自主题: AI技术研报
10132 点击    2025-03-31 15:07
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现?

来自主题: AI技术研报
4709 点击    2024-10-14 15:37