AI资讯新闻榜单内容搜索-RL

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

现有Mobile/APP Agent的工作可以适应实时环境，并执行动作，但由于它们大部分都仅依赖于动作级奖励（SFT或RL）。

来自主题: AI技术研报

11880 点击 2025-07-21 12:25

MiniMax 技术闭门会分享：长上下文是 Agent 的 Game Changer

MiniMax 在 7 月 10 日面向全球举办了 M1 技术研讨会，邀请了来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾，就模型架构创新、RL训练、长上下文应用等领域进行了深入的探讨。

来自主题: AI资讯

9283 点击 2025-07-20 12:37

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

在没有标准答案的开放式对话中，RL该怎么做？多轮对话是大模型最典型的开放任务：高频、多轮、强情境依赖，且“好回复”因人而异。

来自主题: AI技术研报

8401 点击 2025-07-19 11:13

用动作分块突破RL极限，伯克利引入模仿学习，超越离线/在线SOTA

如今，强化学习（Reinforcement Learning，RL）在多个领域已取得显著成果。

来自主题: AI技术研报

7424 点击 2025-07-14 15:16

AI算姻缘火了！下载破10万、月入百万，卷爆一众社交软件

今年AI最离谱也最让人上头的用法，可能不是写代码、写论文，而是算命。

来自主题: AI资讯

8560 点击 2025-07-14 11:47

前 OpenAI 研究员 Kevin Lu：别折腾 RL 了，互联网才是让大模型进步的关键

「停止研究 RL 吧，研究者更应该将精力投入到产品开发中，真正推动人工智能大规模发展的关键技术是互联网，而不是像 Transformer 这样的模型架构。」

来自主题: AI资讯

9158 点击 2025-07-13 11:23

Meta发布40页报告，具身智能的下一步是「心智世界模型」：能听，能看，能理解，会共情

这篇报告第一次把对人心智状态的推断，放到和物理世界模型（physical world model）同等重要的位置上，并将其概念化为心智世界模型（mental world model）。相比于传统世界模型（如LeCun的JEPA）仅关注物理规律（物体运动、机械因果），心智世界模型则首次将心理规律（意图、情感、社会关系）纳入世界模型框架，实现“双轨建模”。

来自主题: AI资讯

8492 点击 2025-07-11 12:25

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯

8153 点击 2025-07-09 12:10

突破全模态AI理解边界：HumanOmniV2引入上下文强化学习，赋能全模态模型“意图”推理新高度

在多模态大语言模型（MLLMs）应用日益多元化的今天，对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习（RL）在增强大语言模型（LLMs）的推理能力方面已展现出巨大潜力，但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。

来自主题: AI技术研报

9667 点击 2025-07-09 10:59

斯坦福毕业，用RL做Agent，华人创业团队Pokee.ai种子轮融资1200万美元

「哈喽，可以听到吗？」北京时间上午 10 点，大洋彼岸的 Pokee.ai 创始人朱哲清接通了我们的连线电话，此刻他正位于美国西海岸，当地时间为前一日晚上 7 点。「哈喽，可以听到吗？」北京时间上午 10 点，大洋彼岸的 Pokee.ai 创始人朱哲清接通了我们的连线电话，此刻他正位于美国西海岸，当地时间为前一日晚上 7 点。

来自主题: AI资讯

9583 点击 2025-07-09 09:07