AI资讯新闻榜单内容搜索-RL

斯坦福洗碗机器人新作！灵巧手跟人学采茶做早餐，CoRL 2025提名最佳论文

来自斯坦福大学、哥伦比亚大学、摩根大通AI研究院、卡耐基梅隆大学、英伟达提出了一种数据采集与策略学习框架DexUMI——利用人手作为自然接口将灵巧操作技能迁移至多种灵巧手。该框架通过硬件与软件的双重适配，最大限度缩小人手与各类灵巧手之间的具身差异。

来自主题: AI资讯

10751 点击 2025-10-03 11:46

大神爆肝一个月，复刻DeepMind世界模型，300万参数就能玩实时交互像素游戏

最近，X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想，开发出了 TinyWorlds，一个仅 300 万参数的世界模型，能够实时生成可玩的像素风格环境，包括 Pong、Sonic、Zelda 和 Doom。

来自主题: AI资讯

9966 点击 2025-09-29 11:02

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

结合RLHF+RLVR，8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法，RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型奖励思维的强化学习）。

来自主题: AI技术研报

10709 点击 2025-09-28 23:03

AI正在偷走白领工作！OpenAI狂砸10亿教AI上班，你的完美继任者即将上岗

Anthropic、OpenAI等大厂，正计划每年投入10亿美元，教会AI像人类一样工作。他们不仅为AI提供强化学习环境（RL environment，简称gym），还让AI「偷师」各领域专家。OpenAI高管预言，未来「整个经济」，将在某种程度上变成一台「RL机器」。

来自主题: AI资讯

9743 点击 2025-09-28 17:23

RLHF与RLVR全都要，陈丹琦团队最新力作将推理能力拓展到通用智能

一个月前，我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后，会离开普林斯顿，全职加入 Thinking Machines Lab。

来自主题: AI技术研报

8420 点击 2025-09-28 16:46

“AI科学家”登顶Nature：MIT团队开发多模态AI平台，全程无人干预90天即发现高效电催化剂

近日，为了加速多元素催化剂的发现与优化，美国麻省理工学院团队开发了一个多模态机器人平台——CRESt（Copilot for Real-world Experimental Scientists）。该平台能够结合自动化设备、大规模模型和实验室监测，在实验设计中融入人类经验、文献知识和显微结构信息，从而加速多元素催化剂的发现和优化加速发展。

来自主题: AI资讯

10385 点击 2025-09-27 20:35