AI资讯新闻榜单内容搜索-veRL

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架，由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、统一理解 + 生成（BAGEL、HunyuanImage-3.0）等架构。

来自主题: AI技术研报

8401 点击 2026-05-26 10:26

吞吐提升76%！小红书开源RL训练引擎Relax

小红书AI平台团队刚刚开源了Relax——一个为全模态数据、Agentic工作流和大规模异步训练协同设计的现代RL训练引擎！实测全异步Off-Policy模式相比共卡On-Policy吞吐提升76%，相比veRL的全异步实现提升20%！

来自主题: AI技术研报

7006 点击 2026-04-15 09:23

1人顶1个Infra团队！OpenAI前CTO新招，让大模型训练跌成白菜价

当大模型竞争转向后训练，继续为闲置显卡烧钱无异于「慢性自杀」。如今，按Token计费的Serverless模式，彻底终结了算力租赁的暴利时代，让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报

8585 点击 2026-01-07 18:35

OpenAI前CTO首个创业产品Tinker，这里全量升级开放了，还有羊毛可薅

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward，optimizer step 等⼀系列基本原语，分离了算法设计等部分与分布式训练基础设施关联，

来自主题: AI技术研报

9526 点击 2026-01-07 15:30

开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

具体而言，Verlog 是一个多轮强化学习框架，专为具有高度可变回合（episode）长度的长时程（long-horizon） LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上，并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则，引入了一系列专门优化手段，从而在任务跨度从短暂交互到数百回合时，依然能够实现稳定而高效的训练。

来自主题: AI技术研报

7893 点击 2025-10-09 11:16

清华创业团队打造！国内首个专注AI推理Serverless GPU平台

你有没有遇到过这样的算力困境：买了 GPU，用不了几次就闲置烧钱，偶尔想用的时候却一卡难求？

来自主题: AI技术研报

7469 点击 2025-05-28 15:09

终端云端三连发！无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统

近日，无问芯穹发起了一次推理系统开源节，连续开源了三个推理工作，包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap，为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开一一解读：

来自主题: AI技术研报

10980 点击 2025-04-30 08:50