AI资讯新闻榜单内容搜索-RL

奖励是假的，能让Qwen提升25%性能却是真的！

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显著提升？

来自主题: AI技术研报

8151 点击 2025-05-29 15:01

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要，近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力，但现有方法在训练过程中面临两大核心挑战：

来自主题: AI技术研报

4892 点击 2025-05-29 14:48

爆火论文颠覆RL认知！「错误奖励」让LLM推理暴涨24.6%，学界惊了

来自华盛顿大学、AI2、UC伯克利研究团队证实，「伪奖励」（Spurious Rewards）也能带来LLM推理能力提升的惊喜。

来自主题: AI技术研报

7013 点击 2025-05-29 10:18

清华创业团队打造！国内首个专注AI推理Serverless GPU平台

你有没有遇到过这样的算力困境：买了 GPU，用不了几次就闲置烧钱，偶尔想用的时候却一卡难求？

来自主题: AI技术研报

4861 点击 2025-05-28 15:09

MiniMax开源首个视觉RL统一框架，闫俊杰领衔！推理感知两手抓，性能横扫MEGA-Bench

仅需一个强化学习（RL）框架，就能实现视觉任务大统一？

来自主题: AI技术研报

5766 点击 2025-05-28 10:41

One RL to See Them All？一个强化学习统一视觉-语言任务！

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有待深入探索。

来自主题: AI技术研报

8181 点击 2025-05-27 17:33

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

别人都在用 X 发帖子，分享新鲜事物，微软副总裁 Nando de Freitas 却有自己的想法：他要在 X 上「开课」，发布一些关于人工智能教育的帖子。该系列会从 LLM 的强化学习开始，然后逐步讲解扩散、流匹配，以及看看这些技术接下来会如何发展。

来自主题: AI资讯

8014 点击 2025-05-26 17:18

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。

来自主题: AI技术研报

7284 点击 2025-05-25 15:11

Claude 4如何思考？资深研究员回应：RLHF范式已过，RLVR已在编程/数学得到验证

惊艳全球的Claude 4，但它到底是如何思考？来自Anthropic两位研究员最新一期博客采访，透露了很多细节。这两天大家可以说是试玩了不少，有人仅用一个提示就搞定了个浏览器Agent，包括API和前端……直接一整个大震惊，与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

来自主题: AI资讯

8005 点击 2025-05-24 17:43

Plaud AI CEO 许高：全球出货近 70 万台设备背后，Plaud 想用 AI 重塑对话价值链

5 月 23 日，Plaud AI 创始人许高与《时代》杂志特约编辑 Charlie Campbell 在 Beyond Expo 展开了深度交流 —— 围绕“语音交互与人类智慧传递”、“生成式 AI 在工作流中的价值”、“个性化模型的演进”以及“AI 安全与地缘政治挑战”等多个维度展开探讨，还分享了 Plaud AI 在消费级 AI 硬件与人机协同方面的最新进展与长期愿景。

来自主题: AI资讯

8277 点击 2025-05-24 11:08