AI资讯新闻榜单内容搜索-RL

Claude 4如何思考？资深研究员回应：RLHF范式已过，RLVR已在编程/数学得到验证

惊艳全球的Claude 4，但它到底是如何思考？来自Anthropic两位研究员最新一期博客采访，透露了很多细节。这两天大家可以说是试玩了不少，有人仅用一个提示就搞定了个浏览器Agent，包括API和前端……直接一整个大震惊，与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

来自主题: AI资讯

8012 点击 2025-05-24 17:43

Plaud AI CEO 许高：全球出货近 70 万台设备背后，Plaud 想用 AI 重塑对话价值链

5 月 23 日，Plaud AI 创始人许高与《时代》杂志特约编辑 Charlie Campbell 在 Beyond Expo 展开了深度交流 —— 围绕“语音交互与人类智慧传递”、“生成式 AI 在工作流中的价值”、“个性化模型的演进”以及“AI 安全与地缘政治挑战”等多个维度展开探讨，还分享了 Plaud AI 在消费级 AI 硬件与人机协同方面的最新进展与长期愿景。

来自主题: AI资讯

8294 点击 2025-05-24 11:08

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

强化学习（RL）+真实搜索引擎，可以有效提升大模型检索-推理能力。

来自主题: AI技术研报

7405 点击 2025-05-17 15:41

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

近日，腾讯 PCG 社交线的研究团队针对这一问题，采用强化学习（RL）训练方法，通过分组相对策略优化（Group Relative Policy Optimization, GRPO）算法，结合基于奖励的课程采样策略（Reward-based Curriculum Sampling, RCS），将其创新性地应用在意图识别任务上，

来自主题: AI技术研报

6039 点击 2025-05-16 15:25

DanceGRPO：首个统一视觉生成的强化学习框架

R1 横空出世，带火了 GRPO 算法，RL 也随之成为 2025 年的热门技术探索方向，近期，字节 Seed 团队就在图像生成方向进行了相关探索。

来自主题: AI技术研报

7132 点击 2025-05-15 10:47

OpenAI首席科学家Nature爆料：AI自主发现新科学！世界模型和RL是关键

近日，《自然》杂志独家专访了OpenAI首席科学家Jakub Pachocki，他揭示了推理模型、强化学习如何赋予AI自主发现科学的能力，并分享了AI如何在五年内重塑科学研究与经济格局的雄心。

来自主题: AI资讯

7971 点击 2025-05-14 11:42

薪酬大曝光！北美顶尖名校ML博士，5篇顶会一作，offer竟只有35万刀？

北美应届毕业的ML博士，方向为RL，读博期间跟的是大牛导师，5篇顶会一作，拿到的offer年薪却只有35万刀？他发帖质疑后，各位业内大佬们现身了。

来自主题: AI资讯

7931 点击 2025-05-14 10:47

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

近年来，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报

9407 点击 2025-05-12 14:59

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。

来自主题: AI技术研报

7300 点击 2025-05-12 14:51

转身世界就变样？WorldMem用记忆让AI生成的世界拥有了一致性

近年来，基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展，但由于上下文时间窗口受限，生成的世界在长时序下严重缺乏一致性。

来自主题: AI技术研报

8033 点击 2025-05-12 11:05