最新!Karpathy:Vibe Coding只是抬高了地板,真正的战场在这里

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
最新!Karpathy:Vibe Coding只是抬高了地板,真正的战场在这里
8697点击    2026-04-30 12:13

最新!Karpathy:Vibe Coding只是抬高了地板,真正的战场在这里


Andrej Karpathy(OpenAI 联合创始人、前特斯拉 AI 负责人、现 Eureka Labs 创始人)在 AI Ascent 2026 上与红杉合伙人 Stephanie Zhan 对话,谈论自他提出 "vibe coding" 一年以来的变化。他解释了为什么作为程序员他从未感到如此落后,为什么 agentic engineering 是在 vibe coding 之上形成的更严谨的学科,以及为什么我们应该把 LLM 视为 "幽灵"而非"动物"——这些参差不齐的、统计性的、召唤出来的实体需要一种全新的品味和判断力来引导。他还谈到了 Software 3.0、可验证性的局限性,以及为什么你可以外包你的思考,但永远不能外包你的理解。"


去年,Andrej Karpathy造了个词——vibe coding。


今年,他说自己从没有像现在这样感到落后过。


这话从一个OpenAI联合创始人、特斯拉前AI负责人、现在Eureka Labs创始人口中说出来,确实值得停下来认真想一想。


在Sequoia Capital的AI Ascent 2026上,Karpathy和Sequoia合伙人Stephanie Zhan做了一次深度对谈。从vibe coding讲到agentic engineering,从Software 3.0讲到"鬼魂"理论,把这一年他所看到的技术转变讲了个透。


原视频自行搜索:Andrej Karpathy: From Vibe Coding to Agentic Engineering


最新!Karpathy:Vibe Coding只是抬高了地板,真正的战场在这里


去年12月,有什么东西变了


Karpathy说,过去一年他一直在用Cursor这类agentic工具,"它在一些代码块上表现不错,有时候会出错,然后你得去改,总体还算有用。"


转折点在去年12月。他正好在休假,有更多时间弄这些工具。然后他发现,最新的模型生成的代码块,直接就对了。他继续更多测试,还是对的。他已经记不清上次纠正它是什么时候了。


他开始越来越信任这个系统,然后就在vibe coding了。


他觉得这个转变非常剧烈:很多人去年认识AI还停留在"ChatGPT平替"那个阶段,但到12月,事情已经从根本上不同了,尤其是在agentic连贯工作流这块,真的开始能跑通了。


Software 3.0:提示词就是编程


Karpathy对Software 3.0的定义是这样的:


Software 1.0,你在写代码。Software 2.0,你通过整理数据集、训练神经网络来编程,编程变成了安排数据和架构。而Software 3.0,你的编程行为变成了提示词,上下文窗口里放的内容,就是你操控LLM这个解释器的杠杆。


他举了两个例子来说明这种范式转变。


第一个是Claude Code的安装工具方式。按老思路,安装一个工具应该是一个shell脚本,但是为了兼容不同平台,shell脚本会越来越臃肿复杂。而Claude Code的安装方式是:复制一段文字,粘贴给你的agent,它会自己完成安装。它会观察你的环境,执行智能操作,在循环里自己debug。用Software 3.0的方式,你不需要精确拼出每一个细节。


第二个例子更极端。Karpathy自己做了一个叫MenuGen的应用,功能是拍下餐厅菜单,然后给每个菜品配上图片,因为菜单上通常没有图。他用vibe coding搭了整套应用,包括OCR识别菜名、调用图像生成器配图、重新渲染菜单。


然后他看到了Software 3.0的做法:把菜单照片直接扔给Gemini,让它用Imagen把图片直接覆盖到菜单原图上。Gemini返回了一张图,就是他拍的那张菜单照片,但每道菜旁边已经渲染出了对应的食物图片。


他的原话是:这把我吓到了,因为我整个MenuGen应用其实没必要存在。


那套应用在老范式里工作,而新范式是神经网络直接做更多的事,输入是图片,输出是图片,中间那层应用根本不需要。


为什么AI这么"锯齿状"


Karpathy花了不少时间思考"可验证性"这个概念,试图解释为什么这些模型如此参差不齐。


他的框架是:传统计算机容易自动化那些能用代码明确描述的任务,而现在的LLM容易自动化那些输出可以被验证的任务。


原因在于训练方式。前沿实验室在训练这些模型时,是巨大的强化学习环境,模型会获得验证奖励,因此它们在可验证的领域能力激增,比如数学和代码。而在那些难以验证的领域,能力就显得粗糙。


他给了一个例子:现在最先进的模型,比如Opus 4.7,可以重构一个十万行的代码库,可以发现零日漏洞,但如果你问它"我要去洗车,洗车店距离50米,我是应该开车还是走路去",它会告诉你走着去,因为很近。


这件事本身很荒诞,但也说明了模型的锯齿状特征:它在某些电路上飞速运行,在另一些电路上完全失灵。这部分取决于实验室的训练方式,部分取决于预训练数据分布,谁在数据里,谁就有能力。


从GPT-3.5到GPT-4,模型在下棋上的能力大幅提升,很多人以为是整体能力提升的副产品,实际上是OpenAI有人决定把大量国际象棋数据放进了预训练集。数据在,能力就在。


所以他的结论是:你其实在一定程度上受制于实验室在做什么,放了什么进去。你拿到的是一个没有说明书的东西,你得自己去探索它在哪些地方能用,哪些地方会出问题。如果你的应用场景恰好在它的RL电路里,就会好用到起飞。如果不在,就得考虑自己做微调。


Vibe Coding和Agentic Engineering不是一回事


这是整场对话里Karpathy讲得最清楚的一个区分。


Vibe Coding是在抬高所有人的下限。它让每个人都能在软件层面做成更多事,这很好,很惊人。


Agentic Engineering是在保持专业软件原有的质量标准。你不能因为用了vibe coding就引入安全漏洞。你对自己的软件仍然负有跟以前一样的责任,但你能不能跑得更快?答案是可以,但怎么正确地做到这一点,就是agentic engineering这门工程学科要解决的问题。


这些agents是尖刺状的实体,有点脆弱,有点随机,但极其强大。怎么协调它们在不牺牲质量标准的情况下提速,这是agentic engineering的核心。


他认为那种"10x工程师"的说法在这里被放大了很多倍——10x已经不够描述优秀的agentic engineer能获得的加速了。


真正变贵的人才技能


如果agents在做越来越多的事,什么人类技能反而变得更值钱?


Karpathy的答案是:品味、判断力和审慎的监督。


他举了MenuGen里的一个bug。用户用Google账户注册,用Stripe账户购买积分,两者都有email地址。他的agent在匹配用户时,试图用email地址把Stripe和Google账户对应起来,但用户完全可以用不同的email注册两个账号,结果就是积分无法正确归属。


这种错误的核心是:为什么要用email地址来交叉关联资金?这是个奇怪的决定,应该用固定的用户ID。这类判断,目前还得靠人来把关。


另一个例子:他在做micrograd项目,试图把LLM训练流程简化到尽可能简单。他不断提示模型"再简化一点,再简化一点",模型就是做不到。他形容这种感觉是:你很明显超出了RL电路的范围,感觉在用蛮力拉扯,完全不是那种飞速运行的感觉。


他也坦承,agent生成的代码有时让他有点心惊,因为它确实能跑,但代码质量不太行,很臃肿,大量复制粘贴,抽象设计脆弱。他希望未来模型能改善这一点,但说这不是什么根本性障碍,只是实验室还没做而已。


在API细节这层,他已经不记得PyTorch里reshape和permute的区别了,也不需要记,因为这些东西可以交给agent。但你仍然需要理解tensor底层有一个storage,有时候你拿到的是view,有时候是独立的storage,这决定了内存效率。基础原理的理解仍然不能外包。


LLM是鬼魂,不是动物


Karpathy写过一篇文章,把LLM比作鬼魂而不是动物。


他试图解释这个框架的出发点:你对一件事有好的心智模型,就能更有能力地使用它。


动物有内在动机、好奇心、通过进化获得的驱动力。LLM没有这些。它的底层是预训练的统计电路,然后用RL往上叠加了一些东西。如果你冲着它大吼,它不会有任何反应,也不会表现得更好或更差。


他说这更多是一种心态调整,而不是能直接推导出五个实操结论的理论框架。更多是帮助自己保持对它的警惕,以及弄清楚什么做法可能有效、什么可能无效。


你可以外包思考,但无法外包理解


关于教育和学习,Karpathy引用了一条让他每隔几天就会想起来的推文,大意是:


你可以外包你的思考,但你无法外包你的理解。


他说自己仍然是整个系统里的一部分,仍然需要知道我们在做什么、为什么值得做、怎么去指挥自己的agents。某些东西必须指导这一切的思考和处理,而这个东西归根结底还是被理解力所约束。


如果你连自己想构建什么都不清楚,你就没办法做一个好的导演。LLM在这一点上不擅长,你是这件事上不可替代的那个人。


这也是为什么他对LLM知识库项目非常兴奋,因为每次从不同角度看同一份信息,他都感觉自己获得了新的理解。他读一篇文章,同时也在把它纳入自己的知识库,不断向它提问,以不同的方式重新整理信息。这是增强理解的工具,而不是绕过理解。


尾声


关于未来的基础设施,Karpathy有一个让他很烦的现状:几乎所有文档还是给人类写的。他不想被告知要去找哪个URL、点哪个菜单。他只想知道应该复制粘贴什么给他的agent。


他认为一个检验基础设施是否真正agent-native的标准,是他能不能给LLM一个提示词,然后MenuGen这类应用就被构建并部署好了,他完全不需要动手。部署过程里要配DNS、要去各个服务的设置里点来点去,这些都太烦了,本来不应该存在。


更远期的预测是:神经网络成为主处理器,CPU退化成协处理器。原本的"计算器式计算机"和"神经网络式计算机"在上世纪五六十年代还是两条未定的路,现在看来有机会迎来一次反转。


他对这个预测的态度是:是这个方向,但会一步一步来,具体的过渡路径还有待确定。


文章来自于微信公众号 "AI寒武纪",作者 "AI寒武纪"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0