AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习

香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO(World Model-based Policy Optimization),正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互,却能显著提升策略性能,甚至涌现出 自我纠错(Self-correction) 行为。

来自主题: AI技术研报
8416 点击    2026-03-02 14:31
GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

近日, Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文,并得到了一些相当惊人的新发现。在这项研究中,他们挑战了当前大模型安全领域的一个核心假设。长期以来,业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法:

来自主题: AI技术研报
9086 点击    2026-03-02 10:12
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性探索。

来自主题: AI技术研报
7517 点击    2026-02-27 10:28
清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

刚刚,毕业清华大学数学系,曾在Meta FAIR工作3.75年、主导过SAM与Llama多项核心工作的研究员张鹏川(Pengchuan Zhang)宣布离职。他的下一站,是来到OpenAI,投身于世界模拟与机器人学(World Simulation and Robotics)方向的研究。

来自主题: AI资讯
10036 点击    2026-02-25 14:57
ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

针对这一挑战,来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号,稳定奖励获取,提升 RL 过程中模型奖励投机的难度,从而有效避免 RL 训练崩溃,实现稳定训练和模型推理能力的诱导。

来自主题: AI技术研报
8168 点击    2026-02-24 15:16
10亿美金!李飞飞惊爆硅谷:英伟达AMD入局,3D空间革命开战

10亿美金!李飞飞惊爆硅谷:英伟达AMD入局,3D空间革命开战

10亿美金!李飞飞惊爆硅谷:英伟达AMD入局,3D空间革命开战

一次拿下10亿美金,惊爆硅谷!就在刚刚,李飞飞「明星初创」World Labs官宣:成功斩获高达10亿美元的全新一轮融资。此轮融资,投资人阵容堪称豪华——

来自主题: AI资讯
9861 点击    2026-02-20 13:54
训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密

训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密

训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密

随着 MiniMax M2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 Agent RL 系统的一些思考。 在大规模、复杂的真实世界场景中跑 RL 时,始终面临一个核心难

来自主题: AI技术研报
7991 点击    2026-02-15 06:50
ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

针对这一问题,中国传媒大学媒体融合与传播国家重点实验室的吴晓雨教授团队于 ICLR 2026 发表论文《Language-guided Open-world Video Anomaly Detection under Weak Supervision》,直面 VAD 领域的核心问题 —— 什么是异常?

来自主题: AI技术研报
8180 点击    2026-02-14 10:03
真机RL杀疯了!机器人自学20分钟100分,数字孪生封神

真机RL杀疯了!机器人自学20分钟100分,数字孪生封神

真机RL杀疯了!机器人自学20分钟100分,数字孪生封神

TwinRL用手机扫一遍场景构建数字孪生,让机器人先在数字孪生里大胆探索、精准试错,再回到真机20分钟跑满全桌面100%成功率——比现有方法快30%,人类干预减少一半以上。

来自主题: AI技术研报
9222 点击    2026-02-13 11:07