不止修bug:Agentic Coding评测走向复杂feature交付新阶段
不止修bug:Agentic Coding评测走向复杂feature交付新阶段在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
伴随多模态大模型的发展,GUI Agent正成为人机交互的新范式。
近日,Flowith 宣布完成千万美元种子轮和种子+轮融资。种子轮为祥峰投资(Vertex Ventures)等机构,种子+轮为红杉中国种子基金、江远投资(LongRiver)等多家顶尖机构联合领投,融资资金将主要用于研发以及全球化市场拓展。
冲刺多智能体第一股,毛利率超80%。
5天时间,AI就搞定了原本需要6个月完成的菲尔兹奖级数学成果的形式化证明。
你见过 7B 模型在拼图推理上干翻 GPT-5 吗?
当 AI agent 需要一个「家」的时候,它们没有住进独立的 App,而是搬进了聊天软件。
让AI自己写高性能GPU代码,字节Seed与清华AIR团队做到了。
来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。
当传统媒体还在急于拼凑前线的碎片,当西装革履的智库专家还在连夜召开研讨会时,一个残酷的现实已经摆在所有人面前:在信息爆炸的地缘政治博弈中,如果你还在依赖人工分析和新闻推送来观察一场战争,你已经彻底沦为信息差的最底端。