任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B 任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B 关键词: AI新闻,Mobile-R1,GUI,模型训练 现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。 来自主题: AI技术研报 9672 点击 2025-07-21 12:25