AI资讯新闻榜单内容搜索-强化学习框架

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习框架
Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里

Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里

Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里

继轻量级强化学习(RL)框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后,LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。

来自主题: AI资讯
7815 点击    2025-11-20 15:26
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

现有的LLM智能体训练框架都是针对单智能体的,多智能体的“群体强化”仍是一个亟须解决的问题。为了解决这一领域的研究痛点,来自UCSD和英特尔的研究人员,提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个LLM一起训练。

来自主题: AI技术研报
6871 点击    2025-11-09 15:36
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

具体而言,Verlog 是一个多轮强化学习框架,专为具有高度可变回合(episode)长度的长时程(long-horizon) LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则,引入了一系列专门优化手段,从而在任务跨度从短暂交互到数百回合时,依然能够实现稳定而高效的训练。

来自主题: AI技术研报
6511 点击    2025-10-09 11:16
从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」

来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案:UserBench —— 首次将 “用户特性” 制度化,构建交互评测环境,用于专门检验大模型是否真正 “懂人”;UserRL —— 在 UserBench 及其他标准化 Gym 环境之上,搭建统一的用户交互强化学习框架,并系统探索以用户为驱动的奖励建模。

来自主题: AI技术研报
8822 点击    2025-10-08 11:45
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。

来自主题: AI技术研报
6362 点击    2025-09-01 16:49
DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

来自主题: AI技术研报
8368 点击    2025-05-15 10:47