只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。
搜索
对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。
Claude Code没法用了后,国内大厂纷纷推出国产平替。最近,阿里心流研究团队就悄咪咪地发布了一款终端AI智能体——iFlow CLI,号称是Claude Code最强平替!iFlow CLI可以使用自然语言命令行的形式直接在终端运行,最重要的一点是,专为国内开发者设计,面向个人用户永久免费,没有限流!
朋友们,以后谁再跟我炫耀他去看 NBA 比赛,只是晒门票和山顶照,我都会笑而不语。 NBA 中国赛时隔六年回归,作为一个老球迷,原本我只想一睹球星的风采,买几件球衣和纪念品在朋友圈炫耀一番。 但接下来
近期,我们独家观察到,国内两家科技巨头——阿里巴巴和字节跳动——旗下的AI助手通义千问(Qwen)和豆包(Doubao),同时开始内测“记忆功能”。此举被广泛视为对标行业领头羊OpenAI的ChatGPT,标志着国产AI助手正从“即时问答工具”向“长期私人助理”的角色加速演进。
夸克 AI 眼镜看起来就是一副普通眼镜,平平无奇,那它在汇聚了阿里AI 和应用生态后,到底能带来什么新的体验?APPSO 带你看看👇第一印象:它首先是一副好戴的眼镜前段时间在我们体验 Meta Ray-Ban Display 的视频里,引起用户互动最高的一个细节大大出乎了我们的意料:数主播扶了多少次眼镜。
昨天,阿里通义千问大语言模型负责人林俊旸在社交媒体上官宣,他们在 Qwen 内部组建了一个小型机器人、具身智能团队,同时表示「多模态基础模型正转变为基础智能体,这些智能体可以利用工具和记忆通过强化学习进行长程推理,它们绝对应该从虚拟世界走向物理世界」。
10 月 9 日凌晨,百灵大模型再度出手,正式发布并开源通用语言大模型 Ling-1T ——蚂蚁迄今为止开源的参数规模最大的语言模型。至此,继月之暗面Kimi K2、阿里 Qwen3-Max 之后,又一位重量级选手迈入万亿参数LLM 「开源俱乐部」。
据“互联网八卦小喇叭”等媒体爆料,全球顶尖AI科学家、IEEE Fellow许主洪(Steven Hoi)已加盟阿里通义,转向通义大模型的相关研发工作。许主洪拥有超20年AI产业和学术经验,是新加坡管理大学终身教授、曾任新加坡南洋理工大学终身副教授,在AI领域发表了300多篇顶级学术论文,
当机器人成为各大科技展会最受瞩目的焦点,当具身智能论坛场场爆满、一票难求,我们不难发现:这个领域正在经历前所未有的关注热潮。
这几天饼干哥哥都在杭州云栖大会,这一届的阿里AI大会,有一种经济上行的感觉,人是真的多,有几次论坛都挤不进去 例如这个AI Coding的交流 今天下午参加了MuleRun的论坛,坐在前排老老实实的听