OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%
OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%到2025年末,AI编程已经全面从辅助工具Copilot,转向以AI为主、人类监督的Agent时代。
到2025年末,AI编程已经全面从辅助工具Copilot,转向以AI为主、人类监督的Agent时代。
Meta再次出手了。这次不是收购某个成熟产品,而是直接把整个团队连锅端走。
去年 11 月,M2 系列模型 Coding Plan 国内率先上线。M2 系列模型的编码能力、处理速度,还有对主流编程工具的适配,受到了很多开发者朋友的欢迎,M2.7 也成为了大家首选的编程模型之一。
UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。
大家好,我是袋鼠帝。 我用AI编程工具,花了半天时间开发出了这个,信息聚合与灵感管理平台(打破信息差),非常好用~
AI 编程这么火,想训练个 SWE Agent 却没有资源怎么办?
3 月 20 日,知名 AI 代码编辑器 Cursor 高调发布了所谓的编程模型 Composer 2,结果被网友质疑「套壳」 Kimi K2.5。而从官方口径来看, Composer 2 的性能简直是降维打击:全基准大幅领先前代,首次引入持续预训练,叠加大规模强化学习,能解决需要数百个操作的高难度编程任务。
Claude Code又上杀手锏!新增Channels功能,Telegram/Discord直连编程会话,手机直接遥控AI写代码。
据《华尔街日报》披露,OpenAI 正在策划一场近年来最大的产品重组:计划将 ChatGPT、编程平台 Codex 以及自家的 Atlas 浏览器,分阶段整合进一个统一的桌面端「超级应用(Superapp)」。移动端的 ChatGPT 暂时保持不变。
众所周知,Cursor作为模型提供商,早期还靠供应Claude模型狠狠吸了一波粉。结果现在,它自己搞出了一款编程模型,而且转身就把Claude拉下马了——其最新编程模型Composer 2,不仅能力超越Claude Opus 4.6,关键是价格降了非常多。