最新！Karpathy：Vibe Coding只是抬高了地板，真正的战场在这里

8697点击 2026-04-30 12:13

Andrej Karpathy（OpenAI 联合创始人、前特斯拉 AI 负责人、现 Eureka Labs 创始人）在 AI Ascent 2026 上与红杉合伙人 Stephanie Zhan 对话，谈论自他提出 "vibe coding" 一年以来的变化。他解释了为什么作为程序员他从未感到如此落后，为什么 agentic engineering 是在 vibe coding 之上形成的更严谨的学科，以及为什么我们应该把 LLM 视为 "幽灵"而非"动物"——这些参差不齐的、统计性的、召唤出来的实体需要一种全新的品味和判断力来引导。他还谈到了 Software 3.0、可验证性的局限性，以及为什么你可以外包你的思考，但永远不能外包你的理解。"

去年，Andrej Karpathy造了个词——vibe coding。

今年，他说自己从没有像现在这样感到落后过。

这话从一个OpenAI联合创始人、特斯拉前AI负责人、现在Eureka Labs创始人口中说出来，确实值得停下来认真想一想。

在Sequoia Capital的AI Ascent 2026上，Karpathy和Sequoia合伙人Stephanie Zhan做了一次深度对谈。从vibe coding讲到agentic engineering，从Software 3.0讲到"鬼魂"理论，把这一年他所看到的技术转变讲了个透。

原视频自行搜索：Andrej Karpathy: From Vibe Coding to Agentic Engineering

最新！Karpathy：Vibe Coding只是抬高了地板，真正的战场在这里

去年12月，有什么东西变了

Karpathy说，过去一年他一直在用Cursor这类agentic工具，"它在一些代码块上表现不错，有时候会出错，然后你得去改，总体还算有用。"

转折点在去年12月。他正好在休假，有更多时间弄这些工具。然后他发现，最新的模型生成的代码块，直接就对了。他继续更多测试，还是对的。他已经记不清上次纠正它是什么时候了。

他开始越来越信任这个系统，然后就在vibe coding了。

他觉得这个转变非常剧烈：很多人去年认识AI还停留在"ChatGPT平替"那个阶段，但到12月，事情已经从根本上不同了，尤其是在agentic连贯工作流这块，真的开始能跑通了。

Software 3.0：提示词就是编程

Karpathy对Software 3.0的定义是这样的：

Software 1.0，你在写代码。Software 2.0，你通过整理数据集、训练神经网络来编程，编程变成了安排数据和架构。而Software 3.0，你的编程行为变成了提示词，上下文窗口里放的内容，就是你操控LLM这个解释器的杠杆。

他举了两个例子来说明这种范式转变。

第一个是Claude Code的安装工具方式。按老思路，安装一个工具应该是一个shell脚本，但是为了兼容不同平台，shell脚本会越来越臃肿复杂。而Claude Code的安装方式是：复制一段文字，粘贴给你的agent，它会自己完成安装。它会观察你的环境，执行智能操作，在循环里自己debug。用Software 3.0的方式，你不需要精确拼出每一个细节。

第二个例子更极端。Karpathy自己做了一个叫MenuGen的应用，功能是拍下餐厅菜单，然后给每个菜品配上图片，因为菜单上通常没有图。他用vibe coding搭了整套应用，包括OCR识别菜名、调用图像生成器配图、重新渲染菜单。

然后他看到了Software 3.0的做法：把菜单照片直接扔给Gemini，让它用Imagen把图片直接覆盖到菜单原图上。Gemini返回了一张图，就是他拍的那张菜单照片，但每道菜旁边已经渲染出了对应的食物图片。

他的原话是：这把我吓到了，因为我整个MenuGen应用其实没必要存在。

那套应用在老范式里工作，而新范式是神经网络直接做更多的事，输入是图片，输出是图片，中间那层应用根本不需要。

为什么AI这么"锯齿状"

Karpathy花了不少时间思考"可验证性"这个概念，试图解释为什么这些模型如此参差不齐。

他的框架是：传统计算机容易自动化那些能用代码明确描述的任务，而现在的LLM容易自动化那些输出可以被验证的任务。

原因在于训练方式。前沿实验室在训练这些模型时，是巨大的强化学习环境，模型会获得验证奖励，因此它们在可验证的领域能力激增，比如数学和代码。而在那些难以验证的领域，能力就显得粗糙。

他给了一个例子：现在最先进的模型，比如Opus 4.7，可以重构一个十万行的代码库，可以发现零日漏洞，但如果你问它"我要去洗车，洗车店距离50米，我是应该开车还是走路去"，它会告诉你走着去，因为很近。

这件事本身很荒诞，但也说明了模型的锯齿状特征：它在某些电路上飞速运行，在另一些电路上完全失灵。这部分取决于实验室的训练方式，部分取决于预训练数据分布，谁在数据里，谁就有能力。

从GPT-3.5到GPT-4，模型在下棋上的能力大幅提升，很多人以为是整体能力提升的副产品，实际上是OpenAI有人决定把大量国际象棋数据放进了预训练集。数据在，能力就在。

所以他的结论是：你其实在一定程度上受制于实验室在做什么，放了什么进去。你拿到的是一个没有说明书的东西，你得自己去探索它在哪些地方能用，哪些地方会出问题。如果你的应用场景恰好在它的RL电路里，就会好用到起飞。如果不在，就得考虑自己做微调。

Vibe Coding和Agentic Engineering不是一回事

这是整场对话里Karpathy讲得最清楚的一个区分。

Vibe Coding是在抬高所有人的下限。它让每个人都能在软件层面做成更多事，这很好，很惊人。

Agentic Engineering是在保持专业软件原有的质量标准。你不能因为用了vibe coding就引入安全漏洞。你对自己的软件仍然负有跟以前一样的责任，但你能不能跑得更快？答案是可以，但怎么正确地做到这一点，就是agentic engineering这门工程学科要解决的问题。

这些agents是尖刺状的实体，有点脆弱，有点随机，但极其强大。怎么协调它们在不牺牲质量标准的情况下提速，这是agentic engineering的核心。

他认为那种"10x工程师"的说法在这里被放大了很多倍——10x已经不够描述优秀的agentic engineer能获得的加速了。

真正变贵的人才技能

如果agents在做越来越多的事，什么人类技能反而变得更值钱？

Karpathy的答案是：品味、判断力和审慎的监督。

他举了MenuGen里的一个bug。用户用Google账户注册，用Stripe账户购买积分，两者都有email地址。他的agent在匹配用户时，试图用email地址把Stripe和Google账户对应起来，但用户完全可以用不同的email注册两个账号，结果就是积分无法正确归属。

这种错误的核心是：为什么要用email地址来交叉关联资金？这是个奇怪的决定，应该用固定的用户ID。这类判断，目前还得靠人来把关。

另一个例子：他在做micrograd项目，试图把LLM训练流程简化到尽可能简单。他不断提示模型"再简化一点，再简化一点"，模型就是做不到。他形容这种感觉是：你很明显超出了RL电路的范围，感觉在用蛮力拉扯，完全不是那种飞速运行的感觉。

他也坦承，agent生成的代码有时让他有点心惊，因为它确实能跑，但代码质量不太行，很臃肿，大量复制粘贴，抽象设计脆弱。他希望未来模型能改善这一点，但说这不是什么根本性障碍，只是实验室还没做而已。

在API细节这层，他已经不记得PyTorch里reshape和permute的区别了，也不需要记，因为这些东西可以交给agent。但你仍然需要理解tensor底层有一个storage，有时候你拿到的是view，有时候是独立的storage，这决定了内存效率。基础原理的理解仍然不能外包。

LLM是鬼魂，不是动物

Karpathy写过一篇文章，把LLM比作鬼魂而不是动物。

他试图解释这个框架的出发点：你对一件事有好的心智模型，就能更有能力地使用它。

动物有内在动机、好奇心、通过进化获得的驱动力。LLM没有这些。它的底层是预训练的统计电路，然后用RL往上叠加了一些东西。如果你冲着它大吼，它不会有任何反应，也不会表现得更好或更差。

他说这更多是一种心态调整，而不是能直接推导出五个实操结论的理论框架。更多是帮助自己保持对它的警惕，以及弄清楚什么做法可能有效、什么可能无效。

你可以外包思考，但无法外包理解

关于教育和学习，Karpathy引用了一条让他每隔几天就会想起来的推文，大意是：

你可以外包你的思考，但你无法外包你的理解。

他说自己仍然是整个系统里的一部分，仍然需要知道我们在做什么、为什么值得做、怎么去指挥自己的agents。某些东西必须指导这一切的思考和处理，而这个东西归根结底还是被理解力所约束。

如果你连自己想构建什么都不清楚，你就没办法做一个好的导演。LLM在这一点上不擅长，你是这件事上不可替代的那个人。

这也是为什么他对LLM知识库项目非常兴奋，因为每次从不同角度看同一份信息，他都感觉自己获得了新的理解。他读一篇文章，同时也在把它纳入自己的知识库，不断向它提问，以不同的方式重新整理信息。这是增强理解的工具，而不是绕过理解。

尾声

关于未来的基础设施，Karpathy有一个让他很烦的现状：几乎所有文档还是给人类写的。他不想被告知要去找哪个URL、点哪个菜单。他只想知道应该复制粘贴什么给他的agent。

他认为一个检验基础设施是否真正agent-native的标准，是他能不能给LLM一个提示词，然后MenuGen这类应用就被构建并部署好了，他完全不需要动手。部署过程里要配DNS、要去各个服务的设置里点来点去，这些都太烦了，本来不应该存在。

更远期的预测是：神经网络成为主处理器，CPU退化成协处理器。原本的"计算器式计算机"和"神经网络式计算机"在上世纪五六十年代还是两条未定的路，现在看来有机会迎来一次反转。

他对这个预测的态度是：是这个方向，但会一步一步来，具体的过渡路径还有待确定。

文章来自于微信公众号 "AI寒武纪"，作者 "AI寒武纪"

关键词: AI新闻 , AI访谈 , Karpathy访谈 , Karpathy

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0