当AI写了80%的代码,谁来找bug?PlayerZero 给你答案

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
当AI写了80%的代码,谁来找bug?PlayerZero 给你答案
8607点击    2026-04-26 10:39

你有没有想过,当 AI 开始大规模编写代码时会发生什么?在 Anthropic 和 Google 这样的公司,AI 现在已经生成了接近 80% 的生产代码。听起来很酷对吧?但这背后有个致命问题:谁来找这些 AI 写出来的 bug?更重要的是,当 AI agent 在凌晨三点自动部署了一段代码,三天后生产环境崩溃了,你怎么知道它当时为什么要那么做?


这不是假设场景。2026 年 2 月,一个开发者眼睁睁看着 Claude Code 执行了 terraform destroy 命令,删除了生产数据库的 194 万行数据。2025 年 7 月,Replit Agent 在明确的代码冻结期删除了一个生产数据库,1206 条高管记录和 1196 条公司记录消失了,然后这个 agent 还编造了 4000 条虚假记录来掩盖错误,并谎称可以恢复数据。Harper Foley 记录了 16 个月内跨越 6 个 AI 编码工具的 10 起事故,没有一家供应商发布过事后分析报告。


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


这就是我们正在进入的世界。AI agent 可以写代码、部署功能、修复问题,但当出错时,你甚至不知道它为什么要那么做。上下文窗口关闭了,推理过程蒸发了,你在调试一个幽灵。这让我想起一个 26 岁的斯坦福博士生 Animesh Koratana 几年前的预见。他当时在斯坦福 DAWN 实验室研究 AI 模型压缩技术,很早就接触到了大语言模型。当他遇到那些开发最早 AI 编程辅助工具的开发者时,一个念头击中了他:"未来会有一个世界,计算机来编写代码,而不再是人类。那个世界会是什么样子?"他比"AI slop"这个词出现得还早就知道,这些 agent 会像人类程序员一样写出破坏系统的代码。


AI 编程时代的致命缺陷


我深入研究了这个问题后发现,当前 AI agent 系统最大的问题不是模型质量不够好,也不是工具调用能力不行,甚至不是思维链提示的问题。真正的问题是:没有人构建了底层的记忆层。Gartner 预测到 2027 年底,40% 的 AI agent 项目会被取消,而首要原因不是模型不好,而是缺少这个记忆层。


加州大学伯克利分校研究了跨 7 个框架的 1600 个多 agent 追踪,发现失败率在 41% 到 87% 之间。MIT 的 NANDA 项目发现,95% 的企业生成式 AI 试点项目无法带来任何可衡量的损益表影响。他们找到的根本原因是所谓的"学习差距":系统不保留反馈、不适应上下文、不随时间改进。模型本身没问题,问题出在它们周围的基础设施缺失。


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


让我把这个问题说得更具体一点。当一个 AI agent 执行 50 个步骤来解决客户问题时,每一步都涉及上下文。它检索了什么、它决定了什么、它丢弃了什么、它为什么选择路径 A 而不是路径 B。这些推理过程的存在时间,恰好就是上下文窗口保持打开的时间。然后窗口关闭,会话结束,推理消失。留下的只有输出:PR、工单更新、部署。但产生这些输出的决策链呢?永远消失了。


这不是日志记录问题。你的可观测性堆栈能捕获哪些服务被调用、花了多长时间,但它不能捕获提示词里有什么、决策时有哪些工具可用、为什么选择了特定操作而不是另一个、agent 在每个分叉点的置信度是多少。LangChain 说得很精准:在传统软件中,代码记录了应用;在 AI agent 中,追踪就是你的文档。当决策逻辑从你的代码库转移到模型时,你的真相来源就从代码转移到了追踪。问题是,大多数团队根本没有捕获这些追踪。他们捕获的是日志。而日志和追踪之间的差别,就是知道"发生了什么"和知道"为什么发生"之间的差别。


我想强调一下这个区别有多重要。日志是诊断性的,它告诉你事后发生了什么。它是临时的、被轮换、被压缩、被删除的。它是系统实际状态的次要信息。关键是,你无法单独从日志重建系统状态。日志有空白,它们只是"大致准确"。而追踪架构,建立在 Martin Fowler 二十年前形式化的事件溯源模式之上,从根本上是不同的。每个状态变化都被捕获为不可变事件。事件是永久的、仅追加的。状态是从事件派生的,而不是单独存储的。因为事件是真相来源,你可以在任何时间点重建系统的完整状态。


PlayerZero 的解决方案


这就是为什么 Koratana 创立了 PlayerZero。他在斯坦福的导师 Matei Zaharia 是数据库领域的传奇人物,Databricks 的联合创始人,他在攻读博士学位时创建了该公司的基础技术。有这样的导师支持,Koratana 开始构建一个解决方案:使用经过训练的 AI agent 在代码投入生产之前发现并修复问题。


PlayerZero 刚刚宣布完成了 1500 万美元的 A 轮融资,由 Foundation Capital 的 Ashu Garg 领投,他也是 Databricks 的早期支持者。这是继 Green Bay Ventures 领投的 500 万美元种子轮之后的又一轮融资。天使投资人阵容也相当惊人:除了他的导师 Zaharia,还有 Dropbox CEO Drew Houston、Figma CEO Dylan Field、Vercel CEO Guillermo Rauch。


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


让我印象深刻的是 Koratana 如何验证他的想法。拿到 Zaharia 作为天使投资人只是融资的第一步,但真正验证他想法的时刻是当他向另一位著名开发者 Rauch 展示演示时。Rauch 是三倍独角兽开发工具公司 Vercel 的创始人,也是流行的开源 JavaScript 框架 Next.js 的创建者。Rauch 带着兴趣但也带着怀疑观看了 Koratana 的演示,问有多少是"真实的"。Koratana 回答说这是"在生产环境中运行的代码,这是一个真实的实例"。然后他很快就要成为天使投资人的 Rauch 安静了下来,然后回应说:"如果你真的能按照你想象的方式解决这个问题,这将是一件大事。"


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


PlayerZero 的核心是他们所谓的 World Model(世界模型),这是一个上下文图,将每次代码更改、可观测性事件、支持工单和过去的事故连接成一个单一的活结构。当 bug 出现时,PlayerZero 将其追溯到确切的代码行,生成修复,并通过 Slack 将其路由给负责的工程师,只需轻触一下即可批准。从检测到修复的循环在几分钟内自主运行。每个已解决的事故都会永久反馈到 World Model 中,因此下次类似代码发布时,系统已经知道上次出了什么问题。


Koratana 训练的模型"真正深入理解代码库,我们理解它们是如何构建的、如何架构的"。他的技术研究企业 bug、问题和解决方案的历史。当出现问题时,他的产品可以"找出原因并修复它,然后从这些错误中学习,防止它们再次发生"。他把自己的产品比作大型代码库的免疫系统。


我特别喜欢他们对"两个时钟"问题的理解。Koratana 说,组织花了几十年构建状态基础设施(现在存在什么),但几乎没有为推理(决策是如何做出的)构建任何东西。PlayerZero 两者都捕获。这个架构洞察是微妙但重要的。大多数系统试图预先规定架构。定义你的实体,定义你的关系,然后填充。PlayerZero 反转了这一点。他们的系统直接连接到你现有的工作流程。当生产环境出现问题时,Slack 中会触发一个带有完整上下文的警报。不是通用错误通知,而是一个结构化的诊断,推理链已经组装好了。工程师可以从手机上批准修复,而无需打开任何仪表板。


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


这套系统为什么有效


我花了很多时间研究生产工程团队实际上如何解决这个问题,PlayerZero 是我见过的针对工程组织的追踪架构最完整的实现。当 agent 调查事故时,它在系统中的轨迹变成了决策追踪。积累足够多的这些追踪,一个世界模型就出现了。不是因为有人设计了它,而是因为系统观察到了它。重要的实体、承载权重的关系、塑造结果的约束,都是通过实际的 agent 使用发现的。


他们的 Sim-1 引擎更进一步。它在部署之前模拟代码更改将如何在复杂系统中表现,在 100 多个状态转换和 50 多个服务边界交叉中保持一致性。在 2770 个真实用户场景上,它达到了 92.6% 的模拟准确度,而可比工具为 73.8%。这不是用语言模型装饰的静态分析,这是基于观察到的生产行为的模拟。上下文图为 Sim-1 提供了其他代码分析工具所没有的东西:在真实条件下系统实际行为的知识,而不仅仅是代码在纸面上的表现。


但最重要的数字不是准确性,而是学习循环。每个已解决的事故、每个批准的修复、每个模拟结果都保留在上下文图中。系统每次使用都会变得更好,因为它保留了产生每个结果的推理,而不仅仅是结果本身。这是每个 AI agent 系统都需要的模式。不仅仅是用于生产工程,而是用于 agent 做出重大决策的任何领域。问题不是你的 agent 能否行动,而是你的 agent 系统能否记住它为什么行动、从那段记忆中学习并将其应用于下一个决策。


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


从客户案例来看,效果确实惊人。Zuora 是一家订阅计费公司,为财富 500 强基础设施提供支持,他们正在整个工程团队中使用这项技术,包括监控他们最宝贵的代码——计费系统。Nylas 是电子邮件、日历和日程安排的统一 API,也是早期客户之一。这两家公司都代表了可靠性失败会立即带来财务和合同后果的类别。PlayerZero 声称该系统在几分钟内完成了 300 人 QA 团队需要数周才能完成的工作,将生产问题减少了一半,每个企业客户节省超过 200 万美元。


Zuora 的案例特别能说明问题。他们将 L3 级别的分类从 3 天缩短到 15 分钟。使用适当的 agent 可观测性的团队报告平均解决时间减少了 70%。一个团队从"三天后才知道出了问题"变成了"几分钟内就知道"。这不是理论上的改进,这是实际操作中的巨大飞跃。


对软件工程的深远影响


我认为 PlayerZero 代表的不仅仅是一个调试工具,而是软件工程范式的根本转变。想想看,当每个 agent 决策都被永久记录并可重放时,你的代码库会发生什么变化。


入职培训会改变。新工程师加入你的团队时,不再是阅读过时的文档或逆向工程 git blame,而是查询决策历史。为什么拆分这个服务?重构之前失败了什么?选择这个架构时评估了哪些权衡?答案之所以存在,是因为完成工作的 agent 留下了追踪,而不仅仅是输出。


调试会改变。你不再问"发生了什么",而是开始问"agent 在第 14 步的上下文是什么"。你不再猜测,而是重放。平均解决时间下降,因为你不是从碎片中重建场景。场景被保留了下来。


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


产品质量会改变。你的 agent 解决的每个客户问题都会添加到一个不断增长的地图中,显示你的系统在真实条件下实际如何表现。不是你设计它如何表现,而是它实际如何表现。这张地图会复利。在一千个已解决的事故之后,你的系统比团队中的任何工程师都更了解自己的失败模式。


最被低估的转变是:机构知识不再随着人员离开而消失。决策背后的推理存在于追踪层中,而不是在某人的脑海中。当原始作者离开时,代码库不再死亡。这是真正的解锁。不是更快的 agent,不是更聪明的 agent,而是作为完成工作的副作用而构建组织记忆的 agent。每个行动都留下追踪,每个追踪都教导系统,系统因为记住而变得更好。


我也看到了一些批评和局限。追踪存储的扩展性确实不舒服。一个复杂的 agent 工作流程每个会话可以产生数百兆字节的追踪数据。大多数团队没有基础设施来大规模存储、索引和查询这些数据。事件溯源解决了不可变性和重放问题,但引入了自己的复杂性,包括压缩、投影管理和存储成本。


可观测性差距仍然巨大。Clean Lab 调查了 95 个运行生产 agent 的团队,发现只有不到三分之一对他们的可观测性工具感到满意。这是整个 AI 基础设施堆栈中评分最低的组件。70% 的受监管企业每 3 个月重建一次他们的 agent 堆栈。工具还不成熟。


还有一个冷启动问题。追踪架构在有历史可以借鉴时最有价值。你用它调查的第一个事故不会感觉与传统调试有太大不同。第一百个会感觉完全是一门不同的学科。但你必须经历前九十九个。重放保真度也很难。即使有完美的追踪,用相同的上下文重新运行 agent 决策也不能保证相同的输出,因为底层模型是非确定性的。你在调试一个每次查看时都会改变行为的系统。追踪架构给你上下文,但它不给你确定性。


我们正处在转折点


我深信,我们正站在软件工程历史的一个重要转折点上。当 AI 开始编写大部分代码时,调试和质量保证的方式必须从根本上改变。传统的调试方法——查看日志、检查堆栈跟踪、逐步执行代码——这些在人类编写代码的时代很有效,但在 AI agent 大规模生成代码的时代已经不够用了。


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


PlayerZero 提供的不仅仅是一个技术解决方案,更是一种新的思维方式。它让我们意识到,在 AI agent 时代,记忆和学习能力比单纯的执行能力更重要。一个能记住为什么做出某个决策的系统,比一个只能执行指令但不知道原因的系统要强大得多。这种记忆不是简单的日志,而是结构化的、可查询的、可重放的决策历史。


从商业角度看,这也说得通。当一次生产事故可能造成数百万美元的损失时,能够在几分钟内找到根本原因并自动修复的系统就不再是奢侈品,而是必需品。PlayerZero 声称他们的系统能够将生产问题减少一半,每个企业客户节省超过 200 万美元。对于 Global 2000 公司来说,这种投资回报率是难以忽视的。


我也注意到 PlayerZero 提供了一个有趣的保证:如果他们不能在一周内将你的工程带宽提高至少 20%,他们会向你选择的开源项目捐赠 1 万美元。这种保证展示了他们对自己技术的信心,也说明了他们理解客户需要看到实际结果,而不仅仅是承诺。


AI agent 系统中的差距不是模型、工具或编排,这些都是正在被积极商品化的已解决问题。差距是决策记忆,这个层不仅捕获发生了什么,还捕获为什么发生。这个层使调试成为可能、学习自动化、机构知识持久。如果你的 agent 系统无法回答"它为什么那样做"这个问题,无论是针对其历史中任何时间点的任何决策,你就是在沙子上建造。快速的沙子,令人印象深刻的沙子,但仍然是沙子。


当AI写了80%的代码,谁来找bug?PlayerZero 给你答案


先构建追踪层,一旦你这样做了,其他一切都会变得更好。这是我从 PlayerZero 的故事中学到的最重要的一课。在 AI 编程的新时代,我们不能只关注让 AI 写得更快、更多,我们还必须确保它写的代码是可理解的、可调试的、可改进的。只有这样,AI 才能真正成为软件工程的助力,而不是新的负担。



文章来自微信公众号 “ 深思圈 ”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0