不止修bug:Agentic Coding评测走向复杂feature交付新阶段
不止修bug:Agentic Coding评测走向复杂feature交付新阶段在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
小雨智造预计,智能焊接机器人需求可达千万台量级,只要占据10%份额,就完全具备成为“爆品”的市场条件。
伴随多模态大模型的发展,GUI Agent正成为人机交互的新范式。
最近关于OpenClaw的事,除了我昨天说的Github登顶之外。还有另一个非常魔幻的事——就是OpenClaw收费上门安装。一次费用,几百不等。更离谱的价格也有,前段时间在群里看到的:OpenClaw安装,1.6万!?
近日,Flowith 宣布完成千万美元种子轮和种子+轮融资。种子轮为祥峰投资(Vertex Ventures)等机构,种子+轮为红杉中国种子基金、江远投资(LongRiver)等多家顶尖机构联合领投,融资资金将主要用于研发以及全球化市场拓展。
GPT-5.3 Instant不卷跑分,专治「聊天翻车」:不再动不动拒绝回答,不再满嘴说教免责,幻觉率暴降27%,写作能力也跳了一个台阶。
首Token提速2.5倍,推理成绩干翻前代大模型。
新鲜出炉的龙虾来了!
冲刺多智能体第一股,毛利率超80%。
5天时间,AI就搞定了原本需要6个月完成的菲尔兹奖级数学成果的形式化证明。