AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证

Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证

Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证

惊艳全球的Claude 4,但它到底是如何思考?来自Anthropic两位研究员最新一期博客采访,透露了很多细节。这两天大家可以说是试玩了不少,有人仅用一个提示就搞定了个浏览器Agent,包括API和前端……直接一整个大震惊,与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

来自主题: AI资讯
8012 点击    2025-05-24 17:43
Plaud AI CEO 许高:全球出货近 70 万台设备背后,Plaud 想用 AI 重塑对话价值链

Plaud AI CEO 许高:全球出货近 70 万台设备背后,Plaud 想用 AI 重塑对话价值链

Plaud AI CEO 许高:全球出货近 70 万台设备背后,Plaud 想用 AI 重塑对话价值链

5 月 23 日,Plaud AI 创始人许高与《时代》杂志特约编辑 Charlie Campbell 在 Beyond Expo 展开了深度交流 —— 围绕“语音交互与人类智慧传递”、“生成式 AI 在工作流中的价值”、“个性化模型的演进”以及“AI 安全与地缘政治挑战”等多个维度展开探讨,还分享了 Plaud AI 在消费级 AI 硬件与人机协同方面的最新进展与长期愿景。

来自主题: AI资讯
8294 点击    2025-05-24 11:08
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,

来自主题: AI技术研报
6039 点击    2025-05-16 15:25
DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

来自主题: AI技术研报
7132 点击    2025-05-15 10:47
OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

OpenAI首席科学家Nature爆料:AI自主发现新科学!世界模型和RL是关键

近日,《自然》杂志独家专访了OpenAI首席科学家Jakub Pachocki,他揭示了推理模型、强化学习如何赋予AI自主发现科学的能力,并分享了AI如何在五年内重塑科学研究与经济格局的雄心。

来自主题: AI资讯
7971 点击    2025-05-14 11:42
薪酬大曝光!北美顶尖名校ML博士,5篇顶会一作,offer竟只有35万刀?

薪酬大曝光!北美顶尖名校ML博士,5篇顶会一作,offer竟只有35万刀?

薪酬大曝光!北美顶尖名校ML博士,5篇顶会一作,offer竟只有35万刀?

北美应届毕业的ML博士,方向为RL,读博期间跟的是大牛导师,5篇顶会一作,拿到的offer年薪却只有35万刀?他发帖质疑后,各位业内大佬们现身了。

来自主题: AI资讯
7931 点击    2025-05-14 10:47
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报
9407 点击    2025-05-12 14:59
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。

来自主题: AI技术研报
7300 点击    2025-05-12 14:51
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

近年来,基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展,但由于上下文时间窗口受限,生成的世界在长时序下严重缺乏一致性。

来自主题: AI技术研报
8033 点击    2025-05-12 11:05