
伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开
伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。
新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。
2025年7月,字节跳动旗下AI原生集成开发环境Trae宣布开源其核心组件Trae-Agent。
这是一篇在GitHub上获得5.3k+星标的重要技术文档,其中蕴含的洞察值得每一位AI产品开发者深度思考。
2025年的夏天,AI对各行各业的颠覆作用还在持续——餐饮业也不例外。就在刚刚过去的六月,旗下拥有肯德基、必胜客等头部品牌的餐饮巨头“百胜中国”,发布了首个餐厅营运智能体“Q睿”(Q-Smart Agent)。
“在百川智能的那段时间,我和同事们始终处在一种很亢奋的状态。尽管我们常常工作到深夜,甚至一两点钟才下班,但内心非常地充实和开心。”如今回忆起那段经历时,前百川工具链负责人徐文健的眼中依然有光。
Agent 产品正发布得火热,但要说到真正懂企业、懂决策的 Agent 还不算常有。其背后,还有大量企业积累的业务数据,在等待被高效利用起来。数据 Agent 会成为一个好解法吗?
这个AI让打工人「磕头」致谢。 前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。要是哪个 AI 能一键分析表格,我当场就能给它磕一个。
近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。
当全球目光都聚焦在OpenAI、Anthropic、谷歌、Meta等明星AI公司时,真正靠大模型落地大规模盈利的,却是一家相对不太知名的公司——Palantir。
随着 AI Agent 技术的快速发展,业界许多企业开始在 Agent 方向进行深层次探索,而不仅仅是停留在“大模型 + 工具调用”的简单应用上。