加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。
搜索
近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。
9 月 22 日下午,联发科推出的新一代旗舰 5G 智能体 AI 芯片 —— 天玑 9500,并展示了一系列新形态端侧的 AI 应用,在公众层面首次推动端侧 AI 从尝鲜到好用。现在,让手机端大语言模型(LLM)处理一段超长的文本,最长支持 128K 字元,它只需要两秒就能总结出会议纪要,AI 还能自动修改你的错别字。
Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
OpenAI已经花了160亿美元(约人民币1138亿)租用计算资源。相当于每天一睁眼,就有几千万花出去租服务器。但这还不是最夸张的。据The Information消息,OpenAI计划在未来五年额外支出约1000亿美元,用于从云服务提供商处租用备用服务器 。
这家由 Khosla Ventures 领投的AI原生财务规划与分析(FP&A)平台公司,正在彻底改变企业财务团队的工作方式。自从 A 轮融资以来,Aleph 的增长速度达到了惊人的 10 倍,为 Zapier、Turo、Harvey、Chess.com 等行业领先公司的财务工作流程提供支持。但更重要的是,他们不仅仅在创造一个软件产品,而是在塑造一种全新的财务专业人员工作模式
和大模型聊天如今也有了开盲盒的体验,只不过开的不是大模型的性能高低,而是哪家大模型更有性格。
9月20日,在AI创造者嘉年华的主舞台,硅星人创始人兼CEO骆轶航,与金沙江创投管理合伙人朱啸虎,在露天主舞台进行了一场对话。
近乎完美的存在。
“看得出 Anthropic 是真急了,都开始澄清了。”有网友在看到发文解释 8 月至 9 月初陆续出现 bug 的推文后表示。“产品质量这么差。我之前不明白为什么,现在明白了。”开发者 Tim McGuire 在帖子下表示。
不管是让 AI 去赚钱养家,还是让它出去和其他 AI 到处勾搭。全都在我们这些碳基上帝的、一念之间。这就是香港科技大学开放的实验项目 —— Aivilization,一个模拟 AI 生活、社会演化与经济体系的开放式 AI 沙盒实验世界。