OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%
OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%到2025年末,AI编程已经全面从辅助工具Copilot,转向以AI为主、人类监督的Agent时代。
到2025年末,AI编程已经全面从辅助工具Copilot,转向以AI为主、人类监督的Agent时代。
Meta再次出手了。这次不是收购某个成熟产品,而是直接把整个团队连锅端走。
UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。
大家好,我是袋鼠帝。 我用AI编程工具,花了半天时间开发出了这个,信息聚合与灵感管理平台(打破信息差),非常好用~
众所周知,Cursor作为模型提供商,早期还靠供应Claude模型狠狠吸了一波粉。结果现在,它自己搞出了一款编程模型,而且转身就把Claude拉下马了——其最新编程模型Composer 2,不仅能力超越Claude Opus 4.6,关键是价格降了非常多。
在休斯顿南边那片化工厂和炼油厂密布的工业带,Cory LaChance 每天打交道的东西是管道等轴测图(piping isometric drawing)。这类图纸记录了工业管道系统中每一根管子的走向、每一个焊缝的位置、每一种材料的规格。
在AI编程智能体快速演进的今天,一个核心痛点愈发凸显:AI能写代码,却难以理解代码。更深层的问题是:即便模型能力再强,若缺乏结构化的工程约束与上下文支撑,智能体也难以稳定、可预期地完成真实工程任务。
刚刚,一篇阿里联合中山大学的研究在 X 上爆火了!
我们用 Codex 改变了维护 OpenAI Agents SDK[1] 仓库的方式。仓库本地的技能(skills)、AGENTS.md 文件和 GitHub Actions,让我们把反复出现的工程工作——验证、发布准备、示例集成测试、PR 审查,变成了可重复执行的工作流。
Datasette创始人Simon Willison公开了一套指南,专门教专业开发者如何用Claude Code等AI编程工具提效。他总结了8大实战模式,从测试驱动到交互式解释,每一条都在重构程序员的工作方式。