AI资讯新闻榜单内容搜索-RL

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

监督微调（SFT）和强化学习（RL）微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展，但是在文本分类场景，强化学习未取得较大的进展，其表现往往不如监督学习。

来自主题: AI技术研报

8663 点击 2025-09-23 14:59

突破后训练瓶颈？Meta超级智能实验室又一力作：CaT解决RL监督难题

为了回答这一问题，来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想：推理计算是否可以替代缺失的监督？本文认为答案是肯定的，他们提出了一种名为 CaT（Compute as Teacher）的方法，核心思想是把推理时的额外计算当作教师信号，在缺乏人工标注或可验证答案时，也能为大模型提供监督信号。

来自主题: AI技术研报

6403 点击 2025-09-23 10:09

工业级3D世界构建提速90倍！全新框架LatticeWorld让虚拟世界「一句话成真」

构建一个工业级高仿真 3D 虚拟世界，需要投入多少时间与人力？如果仅需一段描述、一张草图，AI 便可快速自动生成 —— 你相信吗？

来自主题: AI技术研报

8094 点击 2025-09-22 10:06

无需训练的世界模型？西湖大学WorldForge开启空间智能新路径，让AI读懂3D世界

近来，由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网，视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。

来自主题: AI技术研报

7848 点击 2025-09-22 09:21

全球双榜SOTA！明略科技专有大模型 Mano开启GUI智能操作新时代

近日，明略科技推出的基于多模态基础模型的网页 GUI 智能体 Mano，凭借其强大的性能，在行业内公认的两大挑战基准 ——Mind2Web 和 OSWorld 上同时刷新纪录，取得当前最佳成绩（SOTA）。

来自主题: AI技术研报

10357 点击 2025-09-21 19:20

ChatGPT负责人深度复盘，爆4o复活内幕！过快下线是失误，将迭代模型人格

GPT-5上线引发全网吐槽。8月14日，ChatGPT负责人Nick Turley深度复盘了GPT-5发布「风波」，并详细总结了此次产品发布中的失误：比如过快下线GPT-4o、低估用户会对模型的情感依恋、没有让用户建立起「可预期性」等。Nick也分享了OpenAI的产品设计哲学，要坚持「真正对用户有帮助」的原则。

来自主题: AI资讯

8038 点击 2025-09-18 15:34

腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」

自从 Google Gemini 将数学奥赛的成功部分归功于「并行思维」后，如何让大模型掌握这种并行探索多种推理路径的能力，成为了学界关注的焦点。

来自主题: AI技术研报

9204 点击 2025-09-18 15:04

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

来自MIT Improbable AI Lab的研究者们最近发表了一篇题为《RL's Razor: Why Online Reinforcement Learning Forgets Less》的论文，系统性地回答了这个问题，他们不仅通过大量实验证实了这一现象，更进一步提出了一个简洁而深刻的解释，并将其命名为 “RL's Razor”（RL的剃刀）。

来自主题: AI技术研报

8095 点击 2025-09-18 14:26

刚刚，DeepSeek登上Nature封面！梁文锋带队回应质疑，R1训练真29.4万美金

DeepSeek荣登Nature封面，实至名归！今年1月，梁文锋带队R1新作，开创了AI推理新范式——纯粹RL就能激发LLM无限推理能力。Nature还特发一篇评论文章，对其大加赞赏。

来自主题: AI资讯

10054 点击 2025-09-18 13:49

李飞飞发布世界模型新成果：一个提示，生成无限3D世界

李飞飞创业公司世界模型新成果来了！只需要一个图像或者提示，就能构建出一个可以无限探索的3D世界——世界更大、风格更多样、3D几何结构更清晰，并且保持一致性、没有时间限制、没有奇怪的变形。

来自主题: AI资讯

10462 点击 2025-09-17 10:35