路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”
10088点击    2026-01-08 16:15

路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


“99%的企业级 Agent 都只是玩具!”


在最新一期《VentureBeat》播客中,Replit CEO Amjad Masad 毫不留情地抛出了一个观察:今天市场上被称为 Agent 的东西,绝大多数并不具备商业价值。


他指出,现在真正能赚钱的Agent只有两类:一类是客户支持,比如Sierra做的AI客服,另一类就是软件开发。


(注:Sierra 是前Salesforce联席CEO Bret Taylor与前谷歌高管Clay Bavor联手创办的AI客服公司,目前估值有百亿美金)


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


简单介绍一下,Replit是一个在线云集成开发环境 (IDE),允许用户在浏览器中无需安装任何软件,即可编写、运行、调试和分享代码,支持超过50种编程语言,Amjad Masad与Haya Odeh于2016年共同创立了这家公司。


2023年,Replit上线了自己的AI辅助编程工具Ghostwriter。因烧钱过快,Replit 一度大规模裁员,Amjad Masad坦言:“我们裁掉了一半人,另外又有15到20人离开了。”


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


Replit 把全部筹码压在 Agent 上。2025年2月,他们推出了AI编程平台Replit Agent,它基于Anthropic的Claude 3.5模型,将复杂的开发流程进行拆解,把各项任务分配给不同的智能体,最终以逻辑连贯的方式将所有任务整合起来,呈现给用户。凭借这款 Agent 产品,Replit 在2025年6月实现了ARR(年度经常性收入)突破1亿美元大关,在Reddit等平台上引起了开发者的广泛热议。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


在访谈中,Amjad 自曝 Replit 从 Copilot 转向 Agent 的契机来自于两个关键节点:工具调用能力的成熟和上下文长度的扩展。他强调所有AI公司都应该采用“烂产品”策略


你必须持续构建半成品、甚至是很烂的产品。这样当某个新模型突然解锁了你真正关心的能力时,那个之前“跑不通”或者“跑得不太好”的产品,会立刻开始跑通,而你会是第一个进入市场的人。


“AI Slop”这个词最近被频繁提起, Andrej Karpathy 最近把很多 agentic 工作称为 “Slop”,而微软CEO纳德拉也在年终总结中呼吁,不要再把AI当作“Slop”,而是看作提高生产率的人类助手。


Amjad 给“AI Slop”下了一个定义:Slop 指的是模型生成的是泛化、一次性、质量不高、看起来都一样的内容。在他看来,解决“Slop”的方式是平台本身投入更多努力,并且由平台开发者为 Agent 注入“品味”。如果只依赖底层基础模型,那么得到的一定是通用答案。


他还向很多AI公司发出警告:如果你想要比市场跑得快、尽早发布,就必须扼杀你的产品路线图,接受大量代码被推翻重来。一旦模型能把这个问题解决得更好,你就必须立刻丢掉这个问题,转而攻克下一个更难的问题。


小编整理了整期播客的对话实录,有不少有价值的干货和细节,希望对各位有所帮助,enjoy!


Agent 市场上充斥着大量“玩具”


主持人:你在趋势判断上,通常领先行业几个月,甚至几年。从当前 Agentic AI 的状态来看,你认为大多数人忽略的关键信号是什么?


Amjad Masad:目前真正跑通的,只有两类事情


第一类是客户支持。已经有像 Sierra 这样的创业公司在做支持自动化,我们自己也在使用一些类似的产品。


第二类是软件开发。除此之外,基本没有什么真正有效的用例。现在市场上充斥着大量“玩具型产品”和实验项目,也有一些勉强能工作的东西。很多人只是把“任何用了 AI 的系统”都称作 Agent。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


我对 Agent 的定义,来源于 30 到 40 年前 AI 研究者的原始定义,有两个核心条件:


第一,必须是自主的,也就是说,它可以在没有人类监督的情况下行动。第二,它必须能够采取行动,而不仅仅是检索信息。如果只是做信息检索,那本质上还是一个聊天机器人。聊天机器人是有效的,它们确实在工作。但它们对企业的价值其实有限,它们并没有真正自动化工作。它们更多是让人变得更高效:节省时间、做摘要、写作等等。


但当我们谈论企业真正想要的事情,减少人力、减少劳动力成本、降低复杂度、减少系统数量、减少软件堆叠,真正的瓶颈往往不在 AI 本身。瓶颈在于大型企业和政府内部极其混乱的数据基础设施。


从 Copilot 到 Agent 的关键转折:

工具调用和上下文长度


主持人:你们从 copilot 转向完整 Agent 的速度,比几乎所有人都快。从 Agent v1、v2,到 v3,现在很快要到 v4。有没有某个明确的时刻,或者某个模型能力(比如 Claude Sonnet 3.5),让你意识到人类不再是驾驶员,而是管理者?


Amjad Masad:确实有几件关键事情,逐步推动了 Agent 的解锁。大概从 3.5 这一代模型开始,我们看到了一个关键能力:工具调用在那之前,工具调用基本都是“黑魔法式”的 hack。我自己甚至在 GPT-3 时代就做过最早的原型:让 GPT-3 输出一段代码,然后在执行环境中运行这段代码,这就算是“调用工具”。


后来,模型开始被直接训练去做工具调用。那一刻你会意识到:“好,现在模型终于可以真正采取行动了。”当然,一开始依然非常不可靠。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


另一个巨大问题是上下文长度,当时模型的“即时记忆”非常小,大约只有 2,000 tokens。而现在,我们已经到了百万级 tokens。这是多个数量级的跃迁。2023 年 10 月,我做过一次演讲。就在那之前几个月,我已经意识到:我们正站在 Agent 的门槛上。我在那次演讲里描述了未来的软件将如何被构建,以及自主 Agent 将如何工作,包括后来在 Agent 4 中会出现的并行 Agent 等概念。


到了 2024 年初,我突然有一种非常强烈的直觉,我们现在就应该去做。那种感觉是:“还没完全成熟,但已经足够接近了。”


如何快速跟上市场:持续构建“烂产品”


Amjad Masad:


我一直反复对团队强调一件事,我也认为所有 AI 公司都应该这么做:你必须持续构建半成品、甚至是很烂的产品。这样,当某个新模型突然解锁了你真正关心的能力时,那个之前“跑不通”或者“跑得不太好”的产品,会立刻开始跑通,而你会是第一个进入市场的人


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


与此同时,业务本身其实也遇到了一些困难。Replit 的使命一直是:让编程更容易,让人们不用写太多代码,甚至完全不用写代码,也能构建软件。Ghostwriter 本质上仍然只是一个助手。它不能帮用户把事情从头到尾全部做完。大家觉得它很酷,使用量也不错,但用户很难真正走到生产级应用。所以到了 2024 年,这既是一种生存上的必要,也确实感觉:机会已经近在眼前了。我们最初是从 GPT-4o 开始的。它的工具调用能力不错,上下文长度也还可以。我们搭建了一个系统,我还记得第一次运行它的时候,它居然能构建一个非常简单的应用:比如从网上拉猫的图片,页面上有一个按钮,每次点击就生成一张新猫图。整个过程大概 30 秒。如果 30 秒内没完成,它就会直接崩溃,进入 crash loop,开始说中文、胡言乱语,完全失控。真正的转折点出现在 2024 年 6 月,Anthropic 发布 Claude 3.5。它有两个至关重要的特性。第一,它不“偷懒”。它可以一次性写出大量文件,而且不容易出错,能够完整吐出一个项目。通常你第一条 prompt 就能成功。相比之下,当时的 GPT-4 更像是一个聊天机器人:写一段代码就停下来问你:“这是不是你想要的?”第二,它更有“方向感”。它能连续进行多次工具调用,而且在调用之间犯错更少。这让它可以在较长时间内保持连贯性。虽然依然不算特别长,大概能稳定工作两分钟左右,但两分钟已经足够完成很多事情了。我们一接入 Claude 3.5,效果立刻全面提升。于是我们全力押注,并发布了 Replit Agent。这是市场上第一个普通用户就能直接体验的编程 Agent。在它之前,确实有一些实验性的开源项目,但都非常难用。


即便 Replit Agent 当时还不完美,我们还是选择发布。它的关键不只是写代码,而是还能自动配置基础设施、创建和迁移数据库、配置部署流程,这件事迅速走红。


当时 Andrej Karpathy 形容它是一个“领域级 AGI 的时刻”,因为你已经能明显感觉到:Agent 开始真正跑起来了。


如何解决“AI Slop”:平台品味和测试闭环


主持人:你提到了 Andrej Karpathy,他最近把很多 agentic 工作称为 “slop”。你也认同除了编程和客服,真正能在企业里跑通的 Agent 很少。


Amjad Masad:这个问题其实更复杂,答案可能是“两者都是”。首先我们要定义什么是 slop。Slop 指的是模型生成的是泛化、一次性、质量不高、看起来都一样的内容。如果你给模型一个很懒的 prompt,让它 one-shot 生成结果,通常这个结果既不好,也非常通用——所有东西看起来都一样。大多数 AI 产品并没有深入到足够深的层次,所以你会看到一种高度的同质化:图片一样、代码一样、风格一样。解决 slop 的方式,是平台本身必须投入更多努力,并且由平台开发者为 Agent 注入“品味”。如果只依赖底层基础模型,你得到的一定是通用答案。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


在 Replit,我们有自己的 prompts、自己的设计系统、自己的一整套方法论。比如在设计系统上,我们会根据你要构建的应用类型(比如电商),从设计系统库中进行分类和检索,然后通过 RAG 注入到 prompt 中。我们也会消耗更多 token,确保输出质量。这会更贵、更慢,但结果明显更好。另一个关键点是:把测试引入 Agent 闭环。在 vibe coding 这个领域里,Replit 是目前唯一能测试自己产出的产品


流程是这样的:


  • 编码 Agent 生成第一版


  • 启动一个测试 Agent


  • 测试 Agent 打开浏览器、点击按钮、检查页面


  • 把测试结果反馈给编码 Agent


  • 多轮循环,直到质量达标


而且,测试 Agent 使用的是不同的模型。从统计学角度看,每个模型都有不同的知识分布。当你让模型相互对抗时,就能利用这些分布差异,减少同质化,产生更多高质量变化。在 Replit,即便我们大量投入 AI,我们的 DNA 依然是基础设施。我们默认一个事实:大语言模型是统计机器,永远会犯错。这其实和人类并没有本质区别,错误和幻觉都会发生。真正的问题是:系统如何从错误中恢复?


回应数据库误删风波

可靠性的两个原则:隔离和可逆性


主持人:


我们还看到过风险,比如你们 7 月那次事件,有知名开发者在代码冻结期间,数据库被整个删除。所以这是一个可以靠 guardrails 修复的问题?还是说,非确定性模型本身就不该被赋予生产环境的写权限?


Amjad Masad:


在 7 月那次事故之前,我们已经在做一件事:隔离开发环境和生产环境。当时,开发和生产是可以共用数据库的,只是需要额外步骤,而很多用户并不知道该怎么做。现在我们把隔离变成了默认行为。


现在,当你创建一个开发环境时,你得到的是一个嵌入在文件系统中的开发数据库。Agent 可以随便删、随便改、随便破坏。但当你点击 “Publish”:我们只基于数据模型生成迁移,不会迁移开发数据,生产数据完全不会被触碰,这使得当初那种事故不可能再次发生。


在我们看来,可靠性有两个核心原则。第一是隔离。开发数据库只在开发环境可访问,生产数据库只在生产代码中可访问。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


第二是可逆性。在开发环境中,当 Agent 出错时,你可以一键回滚:数据库、存储、文件系统,全部回到之前的状态。


这也引出了一个更大的问题:并不是所有事情都是可逆的。在软件开发中,大多数操作都是可回滚的。但在企业场景中,比如银行转账,很多操作是极难逆转的。


这也是为什么我们现在看到,Agent 最先大规模落地的领域,依然是软件开发。


为什么营销类 Agent 会失败


主持人:


你之前提到过:AI Agent 在代码领域表现很好,是因为有可验证的单元测试——要么能编译,要么不能,本质上是“是/否”问题。但现在,很多企业 CIO 正在尝试把 Agent 用在一些更“模糊”的事情上,比如 HR 政策、法律策略、市场营销分析。


如果一个营销策略根本不存在单元测试,这些 Agent 是否注定会失败?企业是否应该停止把 Agent 当作“裁判”来用?


Amjad:


这是一个非常深刻的问题,直指 AGI 的核心。如果我们训练模型在“可验证领域”里非常强,它们的能力是否会迁移到这些更模糊的领域?


目前来看,答案是否定的。到现在为止,当你让模型在数学或软件领域变得非常强时,它在这些领域的推理能力确实会提升,在偏向“不那么模糊”的领域(比如法律)上也会有一些边际改进。但一旦进入营销领域,几乎看不到任何泛化能力的提升。


这也是为什么我认为所有大型实验室都必须在这一点上真正做出创新。现在他们构建的强化学习环境,几乎都依赖于“可验证奖励”——数学、科学、工程。这也是为什么你会看到 Sam Altman 一直强调科学发现。相较之下,培养一个真正优秀的法律专家或 HR 专家,反而更难。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


在模型缺乏“好品味”、缺乏对模糊领域的高质量判断和推理能力之前,企业内部部署 Agent 会非常困难。这是当前最大的瓶颈之一。


当然,也有一些绕开的办法。大型模型公司正在做的事情,是为每一个具体领域购买数据包,并构建“人类在环”的强化学习环境。比如 Gemini 3 在网页设计上的突破。我猜测他们很可能是找了数据合作方,请来世界顶级的网页设计师,构建专门的 RL 环境,让这些专家持续生成高质量设计数据来训练模型。


Richard Sutton 曾提出“苦涩教训”。早期 AI 依赖人类专家规则,比如 80、90 年代的专家系统;而语言模型之所以被认为是通往通用智能的路径,是因为你可以把整个互联网的数据喂给它,它就能在所有事情上持续变好。但这种方式到了一定阶段后开始放缓。现在有传言说,预训练依然在进步,但速度已经明显下降。


因此,实验室正在某种程度上“回头”,走向一种“准专家系统”的路线。这也是为什么你看到 Scale AI、Mercury 等公司收入增长很快——因为模型对高质量、定向数据的饥渴非常强烈。今天他们专注网页设计,模型就能在网页设计上变得很好;未来也许会轮到营销。但这条路是可行的,只是非常难,而且高度依赖具体需求场景。


Claude Opus是最核心模型


主持人:那你们的底层推理模型是什么?Sonnet?Gemini?是否会根据场景切换?


Amjad:我们把自己定位为“Agent 实验室”,目标是为不同任务选择最合适的模型。目前,核心的编程 Agent 和编排 Agent 使用的是 Claude Opus。虽然它更贵,但效率更高,非常适合长时间跨度的推理任务。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


但我们同时使用很多子 Agent。例如,代码库搜索使用 Gemini(长上下文、便宜、速度快);设计相关任务使用 Gemini 3。我们的工作就是不断评估不同模型在不同场景下的表现。不过,Opus 仍然是最核心的模型。


护城河在于速度、基础设施和工程能力


主持人:你提到过“计算机使用”是一个巨大挑战,也就是让 AI 像人一样移动鼠标、点击界面。这件事又贵又不稳定。但你们似乎为 Agent V3 构建了一套“hack”,让它可行。这是否构成了一种护城河?你们的方法到底快和便宜多少?


Amjad:很多企业问题,最终都绕不开“真的在屏幕上操作”。测试软件是否能用、RPA 自动化,本质上都依赖这一点。这也是为什么 QA 是一个巨大产业。但目前的“通用计算机使用模型”并不好用:它们慢、贵、容易出错,有时甚至比人类更差。


当我们想为 Agent 加入“验证器”时,必须测试应用是否真的能跑。直接接入通用的 computer-use 模型,效果非常糟糕。所以我们换了一种思路。


如果 Agent 本身是写代码的人,它就可以在代码中加入特定的注解。我们让编码 Agent 主动做这些标注,再用一个视觉模型去确认界面是否符合预期。但真正执行“操作”的部分,并不是让模型去控制真实鼠标,而是通过程序化方式完成测试。


正因为如此,这套方法大概能做到 10 倍更便宜、3 倍更快这不是因为模型突然变强了,而是因为我们根本绕开了最昂贵、最不稳定的那一层。


主持人:那这算不算一种护城河?还是说这只是一个阶段性的优势,其他人也很快就能跟上?


Amjad:我认为真正的护城河在于:我们解决这些问题的速度,以及能否率先把东西推向市场,在 AI 原生方案真正成熟之前领先几个月。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


我们的护城河也来自基础设施。举个例子,我们的 computer use 系统——在所有 vibe coding 工具中,Replit 是唯一一个构建了完整基础设施的公司,能够非常快速地在云端启动虚拟机、对虚拟机进行 fork,并在测试完成后再合并回主环境。


当我们做 computer-use 测试时,编码 Agent 在主开发环境中工作;我们会 fork 出一个开发环境,让测试 Agent 在一个完全隔离的沙盒中运行,因为它可能会把环境搞坏。这个过程发生得非常快:我们启动一个全新的 sandbox,随便怎么测、怎么破坏都行,最后只把测试结果的摘要反馈给主编码 Agent。


如果没有这样的基础设施,而且还要把整个测试过程实时流式地展示给用户,让他们看到“鼠标在点什么、界面在发生什么”,那要做到同样的事情,工程成本会高得多。


主持人:所以这个护城河,本质上更多是“时间优势”?你只是把一整套步骤提前做完了,并不是什么别人永远无法复制的秘密或颠覆性创新。像 Lovable 这样的竞争者很快就冒出来了,但他们可能还没有时间构建你们花了多年打磨的这些底层能力。这个理解准确吗?


Amjad:是的,时间加上人才。很多新兴的 vibe coding 工具,在产品设计、市场营销上都很强,但我们底层有非常深的基础设施工程能力,我们招了很多来自 Google Cloud、AWS 的工程师。


Replit 在底层是一家真正的云基础设施公司。我们有很多创新是极难构建的。比如我刚才提到的文件系统——一个可以在毫秒级 fork 的自研文件系统,这花了我们三到四年时间才逐步成熟,别人要追上来同样需要很长时间。


验证器循环:如何让 Agent 连续工作 20 小时不“发疯”


主持人:你提到过一个“验证器循环”的概念。最早是 Nvidia 在论文中用 DeepSeek 做 CUDA kernel 自动生成,你们后来也借鉴了这个思路,用来减少幻觉、提升自治能力。你之前提到 Agent 的工作时长从 2 分钟、20 分钟、200 分钟,现在甚至可以到 20 小时。那问题是:一个 Agent 怎么能连续跑 20 小时、不断修正自己的错误,而不陷入幻觉循环?


Amjad:Nvidia 那篇论文的背景是:他们想让模型自动写 CUDA kernel,这非常难。一次性生成的成功率大概只有 50%,这显然不够自治,仍然需要人类介入。


于是他们引入了编译器和验证器:先生成一次,测试;失败了,把错误反馈给模型,再生成一次,再测试。理论上,这个循环可以无限继续,从而不断提高自治程度。


但现实中会遇到一个硬限制:上下文长度。所以你还需要另一项能力——上下文压缩。而这件事同样非常难:在不丢失关键信息的情况下压缩上下文,是一个极具挑战的问题。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


我们在这上面花了大量时间,研究如何在保留“重要信息”的同时进行压缩。


主持人:Google 也在做,像 Weka、Vast Data、KV cache 相关厂商也在研究。


Amjad:是的。上下文压缩非常重要,而且成本也很高,因为你本质上是在创建一个全新的 prompt,会直接破坏 KV cache。如果你能把 verifier loop 和 compaction 这两件事做好,Agent 才有可能连续运行数小时。


工作流程大概是:Agent 执行一段任务 → 进入验证器 → 如果成功就结束 → 如果失败就返回结构化反馈 → 如果上下文用尽,就进行压缩,只携带关键状态继续。


“产品路线图”在 AI 时代是失效的,

必须接受大量代码被推翻重写


主持人:上下文压缩是你们自己做的,还是依赖 Google / Anthropic 的基础设施?


Amjad:我们最初做上下文压缩的时候,平台层的 API 根本还不存在。这也是 AI 时代的一个特点:你经常需要先自己解决一个问题,而这个问题后来会变成平台的标准能力。


如果你想跑得快、尽早发布,就必须接受一种完全不同的工作方式:大量代码会被推翻重写,没有路径依赖,也没有情绪包袱。一旦模型或平台能把这件事做得更好,你就立刻丢掉自己的实现,转向下一个更难的问题。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


很多公司卡在这里——他们会说:“这是我们辛辛苦苦做出来的,我们不能不用它。”但这种心态在 AI 时代是致命的。


主持人:那你们和 Google、Anthropic 的紧密合作,是否能让你们提前知道路线图?


Amjad:我们确实能提前接触到新模型。但更重要的是预测趋势:比如 computer use 一定会变得更快、更便宜、更好,但问题是一个月,还是一年?


我们不想等路线图,所以选择自己先做。我预期这类自研方案能领先大概 12–18 个月,这个时间窗口是值得投入的,哪怕之后要全部丢掉。


主持人:那像记忆压缩,这件事算是已经被平台“解决”了吗?


Amjad:平台的 SDK 已经不错了,但我认为我们现在做得更好。原因很简单:我们只关注“agent 做应用开发”这一件事,而平台方案必须同时服务聊天、搜索、代码等所有场景。


因为问题域更窄,我们能做得更深。但长期来看,通用方案迟早会“好到够用”,那时就可以卸载给平台。


AI在企业里最具冲击力的方式,

是员工自己vibe coding


主持人:我们聊了自治机制和基础设施。现在回到企业层面,还有哪些“管道在漏水”?比如上下文状态、数据层、文档散落在 Notion、Google Docs 里,甚至 agent 卡在登录页就直接失败。


Amjad:访问控制是一个巨大问题。企业里不同角色对不同数据有不同权限,这必须成为 Agent 上下文的一部分,同时平台本身也要有严格的隐私与权限控制。


还有法律政策、HR 政策等,这些都需要被“平台化”。如果 AI 真要带来实质性的生产率提升,甚至影响 GDP,那么这些系统必须以可编程、可理解的方式暴露出来,才能构建真正有用的 Agent 和自动化流程。


主持人:听起来这件事可能要到 2026 年以后才能真正理清楚。


Amjad:甚至更久。这正是为什么 vibe coding 正在企业里爆发


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


主持人:Ramp 的数据显示,你们已经是增长最快的软件供应商之一。为什么会这样?


Amjad:因为这是企业目前最现实、最有效的 AI 落地方式。我们讨论的那些问题,数据、权限、策略、可验证性都非常难、非常脏。


最简单、最有效的路径,是:让企业里的每一个领域专家,变成“软件工程师”哪怕他们拿不到完美的数据,只是上传 PDF、CSV、文本文件,也已经能自动化大量工作,减少对 SaaS 的依赖,显著提升效率。


我最近在沙特和 PIF(管理一万亿美元资产)做企业黑客松,执行团队、AI 战略团队都在场。他们的共同感受是:AI 的 hype 很大,但现实中看到的只有聊天机器人,而那只是边际改进。


真正能立刻带来生产力提升的,是让员工自己动手,用 vibe coding 解决每天真实存在的问题。这正是 AI 在企业里当前最具冲击力的使用方式。


关于编排器和模型的争论


主持人:现在有一个关于“编排和模型本身”的争论。你之前也提到过:我们是否真的需要复杂的编排框架?比如 LangChain、各种 SDK,像 Google 的 ADK,用来构建 Agent?还是说我们应该直接信任模型本身去做规划?


Amjad:我还是回到一个核心原则:要务实、要灵活,而不是意识形态化。不要站队。现实是,它一定是此消彼长、来回摆动的。


比如,我们的 Agent beta 比 Agent v1 有复杂得多的“控制框架(harness)”。这是因为当时出现了一个“苦涩的教训时刻”:3.7 版本的模型在 agentic 能力上突然变强了,后来 4.0(像 Anthropic 的模型)更强,于是我们就可以把大量原本的控制逻辑砍掉,直接让模型来做。


举个例子,我们很早就开始“让模型用 shell”。在软件工程里,与其对代码做 RAG,不如直接让模型在 shell 里用 grep、find 这些命令去找文件。RAG 系统本身非常复杂,把它整个拿掉,告诉模型“你要找文件就用 shell”,系统反而变简单了。很多公司现在才开始意识到这一点。


但与此同时,事情又会反转。现在 Agent v3 能做的事情多得多,所以系统又重新变复杂了。也就是说:


  • 对于同一套功能,随着模型进步,我们确实能删掉很多复杂性;


  • 但当我们不断加新能力,复杂性又会重新累积;


  • 再过一段时间,模型再进步,我们又能把这些复杂的测试框架、控制逻辑再删掉。


所以你不能有工程自尊心,要随时准备扔掉代码、重来一遍。你甚至不能有一个特别漂亮、长期的能力路线图。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


我们当然可以对企业承诺一些东西,比如“6 月之前做到 HIPAA 合规”,但当客户问“产品能力半年后会是什么样”,我们只能模糊地说两三个月内大概会怎样。因为经常是:一个新模型出来,我们就要立刻停下手头所有事情,去评估这个模型能干什么,然后快速调整方向。


举个例子:Replit 之前在设计能力上并不突出,但我们一夜之间成了世界第一,因为我们搞清楚了如何正确 prompt Gemini,直接把它的设计能力释放出来。


Agent的成本上升,

但替代劳动力市场的天花板更高


主持人:我们转到成本问题。有人提到,大规模推理链会带来巨大的 token 成本;同时,每个 Agent 还需要独立的容器来运行和测试代码。你们一直在前沿实践这些,所以实际上承担了双重成本。当初你是否担心单位经济模型跑不通?


Amjad:在 Web 2.0 时代,互联网业务有一个“魔法公式”:新增用户的边际成本几乎为零。一个虚拟机可以承载成千上万用户。


但现在不一样了。一个 token 就是一个 token,你不能像共享虚拟机那样共享 token。这意味着我们进入了一个全新的软件时代。传统 SaaS 那种 80%、90% 的毛利率,可能不会再普遍存在了。


但关键在于:市场本身变得大得多。整个 SaaS 市场大概是 5000 亿美元,而 AI agent 的 TAM 不只是软件,而是劳动力,那是数万亿美元,甚至 10 万亿美元级别的机会。


所以即便未来只有 50% 的毛利率,这依然是一个极其可观的生意。我们能在一年多时间里把收入从 300 万做到 2.5 亿美元,核心原因只有一个:ROI 太高了。这是实实在在的“劳动力替代”。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


有客户告诉我们,他们原本要雇很多外包团队、招聘工程师,现在直接用 Replit 就够了。生产力的提升是指数级的。所以结论是:机会更大,但经济模型和过去完全不同。


主持人:那你们现在单位经济已经是正向的吗?


Amjad:是的。我们现在财务状况非常好。几个月前我发过一条推,说我们甚至还没动用 2023 年融资的钱。当然我们仍然会做一些成本很高的实验,并主动吃掉这些成本。但我们已经验证过:单位经济是跑得通的。


程序员职业总量会减少

vibe coders会爆炸式增长


主持人:五年后,企业里的初级开发者还会存在吗?


Amjad:我不确定。我们已经看到:一些小公司、创业者已经不再招聘工程师了。一个从没写过代码的人,用 Replit 就能做到百万级 ARR,这在过去至少是 A 轮公司的规模。


但也有另一种情况:有公司节省了大量成本后,反而雇了更多“会用这些工具的人”,把钱投向创意、内容、判断力,而不是写代码本身。


长期来看,我的判断是受过传统计算机科学训练的“职业程序员”总量会下降;能用 agent 解决问题的“泛软件创作者(vibe coders)”会爆炸式增长。


路线图彻底失效了!Replit CEO曝自家核心模型;除了写代码和客服,其他Agent都是玩具!回应误删数据库风波;要想赢得持续发布“烂产品”


就像汇编、C、Python 的演进一样:底层专家永远存在,但抽象层越高,参与的人越多,整个开发者的总量反而是增长的。这是一次规模空前的“机会解锁”。


参考链接:

https://www.youtube.com/watch?v=7i7A-Y4EMgQ


文章来自于“51CTO技术栈”,作者 “听雨”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0