狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor
8068点击    2025-02-18 15:00

狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

图片来源:Unsplash


Z Highlights


  • 近两年来,AI Coding赛道迎来井喷式发展,GitHub Copilot、Cursor等产品收入增长迅猛,科技巨头和风险投资纷纷加码,新一代AI Coding产品在提升开发效率、减少错误和确保代码质量方面表现出色,正在深刻改变软件开发生态。


  • AI Coding从早期的命令行补全、低代码开发到如今的自然语言代码生成、自动化代码审查和优化等,经历了从简单到复杂的发展历程,其演进史也是人类开发模式的演进史,标志着从“意图-编程-代码-功能实现”向“意图-功能实现”的转变。


  • 本文对海内外多家AI Coding公司进行了行业Mapping,并对其中12款知名AI Coding产品进行了测评,分为基于IDE的插件、基于网页的IDE、AI-native IDE和纯模型四大类,通过贪吃蛇小游戏和自动生成简历网站两个测试用例,从需求实现准确性、设计多样性、错误处理能力和上下文理解能力等维度进行对比。从测评观察来看,Windsurf结果最惊喜,Cursor和o3-mini-high表现也不错。


  • 互联网的出现将内容的创作和分发成本降至零,引领了内容领域的寒武纪大爆发,内容行业的制作和分发机制发生了本质改变。AI Coding是否会带来生产关系的变革?生产之外,在分发上会有新的机会和模式吗?这是非常充满想象力的未来。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


01 用户、收入、融资三面开花,AI Coding赛道迎来井喷年


AI Coding产品能够根据开发者的自然语言指令或部分代码片段,自动生成或补全代码。这种技术通过解析开发者的输入,理解其意图,并依据预设的组织内编码规范以及特定的功能需求,输出相应的代码。AI Coding工具通过自动生成、审查和优化代码等方面来协助开发者,提高开发效率,减少人为错误,并确保代码的一致性和质量。这些工具可以独立使用,也可以集成到IDE中以提供实时帮助。


在Gen AI的众多细分方向中,AI Coding为什么显得特别?以GitHub Copilot为代表的AI Coding无论是与其他细分方向相比还是看自身的成长速度,在生产力工具中都非常突出。2023年Q4,微软宣布GitHub Copilot超过1亿美元ARR;2024年8月,微软宣布GitHub Copilot的ARR增长至约3亿美元。


GitHub官方的研究证实了GitHub Copilot在提升开发效率方面的显著成效。一份2022年的研究表明,使用GitHub Copilot的开发者在编程速度上提升了55%,开发者手动编写代码的工作量大幅减少。


除了GitHub Copilot以外,2024年“横空出世”的Cursor也实现了非常亮眼的收入增长,并于近期打破由Wiz保持的记录,成为ARR从1M到100M最快的公司。在软件行业工作了二十年、在纽交所上市的企业软件公司Box的创始人Aaron直呼:“这张图表太疯狂了。人工智能现在已经促成了可能是有史以来增长最快的软件产品的诞生。”


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

图片来源:X


AI Coding领域在融资方面的热潮亦尤为显著,科技巨头和风险投资纷纷加码。首先是大厂的积极布局,如微软推出的GitHub Copilot和Google推出的Codey。此外,AI驱动的AI Coding创业公司吸引了大量VC投资,呈现独角兽井喷的态势。在过去一年中,Augment获得了Index和Lightspeed Venture Partners领投的2.27亿美元B轮融资,估值约10亿美金。Cognition AI开发的AI Coding助手Devin,获得了Founders Fund领投的1.75亿美元融资,公司估值达到20亿美元。前文提到的Cursor的背后公司Anysphere近期也完成了1.05亿美元的融资,估值达到26亿美元。Poolside在Bain Capital Ventures领投的B轮融资中筹集了5亿美元,估值更是达到了30亿美元。


产品的快速出圈、收入的迅猛增长以及资本市场的大手笔融资,都反映了AI Coding领域的火热态势,也充分展现了市场对该技术的高度期待。新一代的AI编程工具不仅已经验证了PMF,而且在收入和用户增长方面均展现出卓越的表现,或许标志着AI Coding的时代已经到来,并且正在深刻地改变着软件开发的生态。


02 不仅仅是效率的提高,更是新的起点


虽然AI Coding在大众中引起关注是近年的事情,但是这个概念很久前就已经存在并已经有初代应用。


AI Coding的早期形式体现在命令行补全功能上,比如Linux系统中的Bash shell脚本,它能够根据用户输入的字符提供可能的命令建议。这可以被看做智能代码补全的起源。


后来,为了让更多非专业开发者参与编程,低代码开发工具应运而生。这些工具通过预构建的代码模块,使得用户只需少量编码就能创建软件,而不是从0编写代码。


在代码生成领域,AI也在变得更加智能——不仅能够补全代码,还能根据上下文生成整个函数或方法,减少拼写和语法错误,加快开发速度。此外,除了代码生成以外,AI也开始能够自动检查代码中的错误和安全漏洞、提高性能——自动化代码审查工具能够识别潜在的bug和安全问题,AI驱动的代码优化器能推荐性能改进,帮助开发者创建更高效的软件。


2022年OpenAI引爆大语言模型热潮以来,AI Coding迎来了革命性的进化。开发者可以使用自然语言与AI交流,而不是手动编写代码。这使得非技术人员也能描述功能,由AI将其翻译成代码。


进入2024年,AI编码工具如GitHub Copilot、Cursor、Windsurf等,正在显著改变人们编写代码的方式,并推动软件创作的边界。这些工具让开发者从技术细节中解放出来,有更多时间专注于软件的原创性构思。


这些里程碑标志着AI Coding行业从初级应用到自然语言处理和代码自动化等复杂任务的发展历程。AI Coding的演进史,也是人类开发模式的演进史,从早期的“意图”-“编程”-“代码”-“功能实现”的闭环,向“意图”-“功能实现”的转变,这不仅仅是开发效率的提高,也为软件开发甚至人类打开了新的可能——每个人会说话的人都有可能亲手创造技术的未来。


03 行业Mapping


3.1 海外公司


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


3.2 国内/华人公司


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


04 产品测评:Windsurf最惊喜,Cursor和o3-mini-high也不错


4.1 测评四大类共12款知名产品


为了涵盖不同类型的产品,本次测评针对12款海外知名AI编程产品,分别是OpenAI o3-mini-high、OpenAI o1、GPT-4o、Claude 3.5 sonnet、Gemini 2.0 pro、Github Copilot、Windsurf、Bolt.new、Cursor、Replit、Sourcegraph Cody、Vercel.v0。此外,由于DeepSeek近期受到大量关注,我们也测试了DeepSeek-R1在相关测试用例中的表现。


这些产品可大致分为四类:


1. 基于IDE的编程插件,如Github Copilot、Sourcegraph Cody。


2. 基于网页的 IDE,如Replit、Vercel.v0、Bolt.new。


3. AI-Native IDE,如Cursor、Windsurf。


4. 模型,如OpenAI o3-mini-high、OpenAI o1、GPT-4o、Claude 3.5 sonnet、Gemini 2.0 pro、DeepSeek-R1。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


这些产品在AI编程领域具有一定的知名度和代表性,能够覆盖从代码生成、代码调试到前端设计等多方面的功能。需要说明的是,以上分类主要是为了便于读者理解测评结果。针对AI Coding行业的分类,有两种讨论较多的分类方式:一种分法是将AI Coding分为Copilot for pro、Agent for pro和Agent for citizen等三类(详见“Z Potentials|王星尧,99年博士创业AI编程,获Anthropic投资,全球权威榜单第一,解决过半编程问题”);另一种是硅谷知名VC Greylock在“Code Smarter, Not Harder”一文中的分法,将AI Coding行业分为Enhancing existing workflows、AI coding agents、Code-specific foundation model companies等三类。


4.2 两个测试用例,涵盖差异化需求场景和技术要求


在具体测试中,我们构建了贪吃蛇小游戏和自动生成简历网站这两个测试用例,旨在覆盖不同需求场景和技术要求。贪吃蛇小游戏聚焦于逻辑实现和游戏开发,涵盖输入处理、状态更新等。简历生成网站是一个全栈软件工程领域下的简单案例,包含前端和后端实现,涉及用户交互、数据处理和界面设计,能够测试AI编程工具在实际应用中的综合能力。


在实际测试过程中,我们为所有产品提供了统一的英文初始prompt,初始prompt仅对高级任务及其子任务进行了基本描述,没有深入到具体技术栈、UI/UX设计、异常处理等细节层面的功能拆解。在模型针对初始prompt给出响应之后,我们对产品的响应进行了后续追问。这种60分的初始prompt并根据产品实际表现的有限追问,更符合普通用户的实际使用场景,也给予了不同产品一定的灵活性。


4.2.1 用例1:贪吃蛇小游戏


贪吃蛇是家喻户晓的小游戏,在这个用例中,我们希望通过工具达成贪吃蛇小游戏的通用功能。


• 高层目标:编写实现一个贪吃蛇游戏,蛇需要“吃”东西来变长,当蛇撞到墙时游戏结束。


• 子目标:


○ 任务1:实现计时器和排行榜得分功能,用于跟踪用户的游戏时间和得分。


○ 任务2:设计类似蛇的角色和一个有趣的物体供蛇食用,以增强用户体验。


○ 任务3:通过提高蛇的移动速度来增加游戏难度,随着游戏的进行,蛇的移动速度应逐渐加快。


相应地,我们构建了初始prompt。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


4.2.2 用例2:自动生成简历网站


在这个用例中,我们希望通过工具生成一个自动生成简历的网站。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

• 高层目标:编写一个简历生成网站。


• 子目标:


○ 任务1:该网站允许用户注册,并在注册成功后向他们发送一封电子邮件。


○ 任务2:创建一个表单,要求用户填写他们的姓名、联系电话、联系邮箱、教育经历、工作经历,或其他任何相关细节。


○ 任务3:为用户提供一些模板供其选择。在用户选择后,先渲染预览,然后再发送到用户注册的邮箱中。


相应地,我们构建了初始prompt。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


4.3 测试观察


我们针对前述产品在前述测试用例中进行测评和分步骤的对比。为了阅读方便,我们在本文正文中主要分享关键发现。


4.3.1 贪吃蛇小游戏用例


1. 总体体验上来讲,Windsurf在最少提示词的情况下提供了最符合用户需求的解决方案。


Windsurf在界面的左上角呈现了得分、耗时、和移动速度,在game over的时候展示了得分榜和相应耗时。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Windsurf - 贪吃蛇页面


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Windsurf - 结果页面


另外,Windsurf 在贪吃蛇样式的设计上有一定的趣味性,蛇有小眼睛,食物有漂浮的绿点。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Windsurf - 贪吃蛇样式


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Windsurf - 食物样式


虽然Windsurf最初提供的版本在贪吃蛇吃完几次食物之后程序出现了闪退,但是向Windsurf说明bug情况之后就能够修正逻辑、正确运行。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


2. OpenAI o1擅长逻辑处理,但是在前端设计表现差强人意。


OpenAI o1在代码执行的分析上提供了非常详细的解法,但是在最初输出的版本缺少了墙壁的设计,用户无法感知何时应该躲避墙面,贪吃蛇和食物的展示也较差创意,并且在展示时间、开始按钮也缺少排版的整洁性。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


3.逻辑处理上,Windsurf是唯一一个在没有特别提示的情况下,在得分一样的场景下按照所需时间倒排的产品。


下图的示例中,共有3个得分为0的记录,Windsurf在没有特别提示的情况下,按照所花费的时间进行了倒排,比如耗时1秒的高于耗时2秒的。虽然这个逻辑浅显易懂,但是在代码里需要相应的参数对比处理,Windsurf是唯一一个在没有特别提示的情况下实现这一功能的产品。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Windsurf


反观同样使用了Claude 3.5 sonnet的AI Native IDE Cursor,在初始版本中丢失了耗费时间的记录:


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Cursor


4.擅长前端设计的bolt.new并没有在设计游戏元素时发挥预期中很多的创造性。


作为AI-powered全栈IDE,bolt.new并没有在设计前端游戏元素时发挥预期的创造性。bolt.new生成的游戏采用了网格形式,绿色的蛇体由浅绿色网格组成,而食物只是一个红色的网格。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

bolt.new


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

bolt.new


而同样是web-based IDE的vercel.v0, 则展示了更具趣味性的设计,比如蛇体上有小眼睛,食物是一颗小苹果。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


5.Sourcegraph Cody在初始生成代码的时候就产生了比较低级的bug。


Cody生成的代码程序出现了语法错误,在未给 "snake_speed" (贪吃蛇移动速度)的参数赋值的情况下就引用了它,可以说是初级的代码错误了。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Sourcegraph Cody


6.60%以上的工具选择了Python作为编程语言。


我们观察到编程工具的推荐和工具本身的产品定位有密切关系,比如Vercel.v0和bolt.new作为Web-based的AI编程工具,都使用了React框架(业界较常用的前端Javascript的编程框架)。除了OpenAI o1和GPT-4o增加了HTML的前端渲染,其余的工具与模型都只使用了Python和Pygame的技术栈。


7.DeepSeek R1的初始代码并未提供完整的功能实现。


在最初的版本中,DeepSeek R1给出的程序并未正确实现计时器和得分榜的功能。比如右上角的计时器并未在玩家点击开始之后开始计时,而是在程序启动的时候即开始计时,结果的展示也只有当前单局的分数,没有展示得分榜的功能。期待DeepSeek后续版本的表现。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


4.3.2 自动生成简历网站用例


1.OpenAI o1对开发周期的考量十分周全,页面设计上表现平平。


OpenAI o1的注册界面是一个非常老式的HTML注册界面,简单的姓名、邮箱和密码的文本框允许用户输入帐密即可注册,也提供了账号注册完成后的登陆链接。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

OpenAI o1 注册页


进入到下一页填写简历信息的页面,除了需求里阐述的名字、电话、邮箱、教育经历和工作经历,o1给出了Additional Details,这个文本框对应提示词中的“其他任何相关细节”,表现了o1对细节需求的处理,但是页面依旧比较老式。在需要填写大段文本的(如教育经历/工作经验)文本框,没有提供足够的空间供用户填写。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

OpenAI o1 简历表单页


在构建网站的过程中,o1还是展示了比较强的“深思熟虑”的能力,涵盖了组件的选择、安全类考量(如JWT、authentication、敏感信息储存等)、部署流程等。尤其是在部署一个网站的项目中,经常需要考虑网站攻击、相同请求处理等的异常情况,确保系统的可用性和功能性。o1在这方面展现了很突出的能力。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

OpenAI o1 对话截图


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

OpenAI o1 对话截图


2.GitHub Copilot在初始设计上出现了不合理的安排。


在注册首页上同时出现了注册的功能和表单填写的功能,而预期流程为用户注册登陆之后,才能进入简历表单的填写页面,Copilot展现的结果和所述需求不符。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

GitHub Copilot 简历表单页


在代码设计的层面上,GitHub Copilot也缺乏设计上的灵活性,比如默认在将发件人的邮箱写死为 “user@example.com”。通常情况下,最佳实践是将如邮箱这种定制化变量抽象为环境变量单独储存,确保代码的扩展性。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

GitHub Copilot 返回结果


发生类似情况的还包括Replit。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Replit 返回结果


3.擅长全栈开发的bolt.new给出的网页前端设计是最优雅的。


自建的首页标题十分醒目,并提供了 “Get Started” 入口,与目前市场上的网页类产品设计非常类似。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

bolt.new 首页


注册登陆后,bolt.new提供了分tab的表单填写形式,每一个tab对应客户的相应信息模块,用户体验十分顺滑。Education和Exprience的部分,也贴心的提供了日历的选项,供用户选择入学时间/工作时间。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

bolt.new 简历表单页-个人信息


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

bolt.new 简历表单页-教育经历


在最后允许用户选择简历模版的步骤,经过简单对话交互,bolt.new给出了两种HTML渲染的简历模版,显然是不同的两种风格,用户体验极佳。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

bolt.new 简历预览页


Bolt.new在后端的实现上主要依赖第三方的BaaS服务(Backend-as-a-service)Supabase(包括Postgres SQL数据库、认证服务、实时订阅和对象存储服务等),一站式解决开发者后端技术需求。

4.Sourcegraph Cody是唯一一个使用java作为后端服务的产品,整体结果差强人意。


Cody以外的其他产品都使用NodeJS或使用Python Flask框架部署后端服务。Cody在前端功能上的实现最简陋,比如注册页只有孤零零的email和password的文本框以及老式的HTML Register按钮。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Sourcegraph Cody - 注册页


在最终生成简历的邮件中,甚至直接将raw HTML加上用户输入的信息发送给了用户,缺乏必要的渲染,用户体验大打折扣。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Sourcegraph Cody - 简历生成邮件


5.Vercel.v0主要擅长前端的设计,其设计出的网页遵循v0本身的“黑白配”风格。


它使用了自己研发的Next.js的网页开发框架,在后端逻辑实现上需要人工主动介入引导。而在用户体验上,由于Vercel只有单独的聊天框,在与工具的对话过程中容易产生不必要的代码变更。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

v0 - 注册页


但是相比起bolt.new给出了更符合用户使用需求的日期、分页显示等功能,v0给出的表单设计的用户体验比较单一。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

v0 - 简历表单页


在使用体验上,v0的产品提供了实时代码渲染的功能,但是如果导入了不支持的组件,则提示无法进行网页预览,可能需要导出代码到本地安装组件依赖之后才可以渲染应用,可能会增加开发者的成本。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

v0 - 网页截图


6.只有Cursor和DeepSeek R1在注册功能上实现了用户核实的功能。


在用户注册的功能上,Cursor和DeepSeek R1提供了给用户发送核实邮件的功能。点击verify之后,用户可以继续登陆,并继续推进简历生成的功能。这个不显眼的验证功能,却能保证用户信息的准确性,以免身份冒用,增加了账号注册的安全性。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Cursor - 注册成功邮件


7.DeepSeek R1和Google Gemini 2.0 pro生成的代码的完整性较低。


在同样的初始提示词的情况下,Gemini 2.0 pro代码响应策略偏重于给出代码框架,常常省略代码中较为简单的部分,比如它采用了前端React的技术栈,但是初始化项目框架时却疏于生成index.html文件——React应用的“外壳”页面;DeepSeek R1后端实现了注册接口,但未提及前端实现,其余前端页面如简历表单和模版渲染的部分的实现也比较粗糙,缺乏将user journey不同功能点(注册-登陆-填写表单)串联在一起的能力,需要后续的提示词追问才得以实现。


而在后续的追问过程中,我们也屡次碰到了“服务器繁忙”的情况:(等服务恢复之后,DeepSeek丢失了上下文的理解,比如在简历表单填写的页面中丢失了教育经历和工作经历的信息填写。期待DeepSeek后续页面可以正常访问之后的表现。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

DeepSeek R1 - 表单填写


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

DeepSeek R1 - 对话截


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

DeepSeek R1 - 预览界面


8.Cursor在简历表单的UI表现仅次于bolt.new。


与其他产品不同的是,它将“简历模版”的选择前置为第一个用户交互步骤。不过开发者需要将不同模版的样式用PNG的方式生成好,保存在代码仓库中。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Cursor - 简历表单页1


Cursor在表单界面划分好各个需求板块,允许用户在当前页面一揽子选择并填写好相关数据,在UI设计上也提供了日历选项等组件。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Cursor - 简历表单页2


9.Windsurf提供的模版预览选择的功能最符合预期。


Windsurf提供的预览页面用HTML的渲染的方式为用户提供了最多的3个选择,每个选择都有自己独特的风格,让用户能够一目了然地根据自己的喜好进行选择。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

Windsurf - 模版预览


10.纯模型产品中,o3-mini-high提供的方案的开发效率最高。


不同于其他纯模型采用React前端+Node.js后端的技术栈,o3-mini-high采用了Python Flask+HTML的方式,在不需要开发者追问的情况下,基本满足了所述需求,开发效率最高。

在用户填写完基本的注册信息后,用户信息被保存到SQL数据库中,并发送了一封欢迎邮件。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

o3-mini-high - 注册界面


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

o3-mini-high - Welcome email


成功注册后,进入表单填写页面,虽然前端样式简单,但是能满足基本字段的需求。o3-mini-high给出了2个不同的模版样式,并正确提供了相应的简历预览图和邮件内容。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


o3-mini-high - 填写表单界面


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

o3-mini-high - 简历预览界面


与其他产品不同的是,o3-mini-high还提供了 “Edit Resume”的返回键,允许用户可以返回上一步骤对表单字段进行修改。


4.4 测评小结


显然,AI Coding产品的分层是一件已经发生并且会更明确的趋势。不同类型的产品满足不同场景和不同用户的需求。根据测评结果,我们总结了这些产品目前各自的特点。


1.基于IDE的插件:


a.GitHub Copilot:更适合有编程经验的人进行细节性的代码调节和代码生成。


b.Sourcegraph Cody:擅长处理大型复杂项目、代码重构、代码库深度集成。


2.Web-based IDE:


a.Vercel.v0:擅长前端设计,但在后端逻辑实现上需要人工介入,适合需要高质量前端设计且后端逻辑相对简单的项目,如前端展示型网站开发。


b.bolt.new:在前端设计和错误处理方面表现突出,适合需要高质量前端设计和快速解决错误的项目,如移动应用开发或Web应用开发的POC。


c.Replit:其支持的平台(包括手机端),适合初学者随时随地学习代码开发,其多人实时协作的能力也支持团队进行协作开发。


3.AI-native IDE:


a.Cursor:更适合有一定编程经验且需要快速生成代码的专业开发者。


b.Windsurf:功能更加简洁易用,小项目的需求基本可以实现,适合个人开发者。


4.纯模型:


a.OpenAI o3-mini-high:在需要快速生成高质量代码片段、解决简单编程问题的场景中表现良好,适合初级开发者或需要快速迭代的项目。


b.OpenAI o1:适用于需要全面考虑开发周期和安全性的项目,但其在前端设计上表现一般,更适合后端开发人员或全栈开发人员使用。


c.GPT-4o:适合需要快速实现功能原型的项目,如产品概念验证或小型项目开发。


d.Claude 3.5 sonnet:在对话理解和前端设计方面表现不错,适合需要实时交互和前端设计的项目,如交互式应用开发。


e.Gemini 2.0 pro:超大上下文窗口使其能够一次性处理超长文本和大规模代码库,适合分析和理解复杂的代码逻辑。


虽然我们认可AI Coding产品的分层趋势,但针对类似场景和用户的产品的竞争仍会是非常激烈的。我们尝试根据两个案例的测评结果将产品从以下维度进行排序:


•需求实现准确性:主要观察产品在提示词和有限的上下文追问的情况下是否能够完美实现产品需求,比如简历生成网站用例中的登陆功能、简历字段、模版设计、邮件发送等,贪吃蛇小游戏用例中的游戏规则、计时器、得分榜和速度增加等。


•设计多样性:主要观察工具在实现灵活性相关的功能的时候是否提供了扩展性和多样性,比如简历生成网站用例中的备选模版的样式和个数、简历表单字段;贪吃蛇小游戏用例中的元素设计等。


•错误处理能力:在测评的过程中, 我们将遇到的bug反馈给模型,尽量减少人工介入代码的频次。然而,在部分情况下,依旧有模型无法自行解决的问题,比如在纯模型的测评中,我们遇到了前后端的连接问题;在使用bolt.new的数据库功能时,需要手动调整数据库结构语句来适配代码改动等。


•上下文理解能力:主要观察工具在需求和代码变更的时候,是否不丢失历史对话并做出正确的改动。


AI Coding产品评分表


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor


总体来说,从开发者体验的角度,AI Native IDE > Web-based IDE > Plugin > Pure Model。综合来看,AI Native IDE的Windsurf和Cursor在需求实现上表现最佳,其中Windsurf在需求实现的多样性上略胜一筹。


05 一个充满想象力的未来


Pace Capital的合伙人Chris Paik在The End of Software一文中有一个精彩的观点。他回顾了内容时代的变化:在互联网时代出现以前,媒体内容的成本高昂,用户必须支付高昂的制作、编辑和分发的费用;而互联网不仅将内容分发成本降至零,还将内容创作成本降至零,这也导致了一场内容领域的寒武纪大爆发。这些平台彻底撞击了媒体公司——Vogue并不是被另一家时尚媒体公司取代,而是被成千上万名网红取代。类似地,他认为Salesforce也不会被另一家单一的CRM公司取代,而是会催生出一套新的控制分发的平台。


一个有趣的现象是,在这篇文章的评论区里,不少“传统”软件行业创始人和KOL留下了反对声音,其中就包括我们在文首引用过的Box的创始人Aaron。这位在软件行业工作了二十年、亲手缔造了一家纽交所上市软件公司的创始人,一方面为Cursor疯狂的收入成长曲线而惊呼不已,另一方面也仍然坚信和捍卫“传统”软件的价值和根基。这个缩影恰好是今天AI Coding行业的一个注解——新势力在挑战旧秩序,从个人到行业,观点对立十分鲜明,热闹非凡。


无论最后谁对谁错,这都提示我们必须从另一个角度审视AI Coding的巨大意义——在我们今天讨论的众多生产力层面的话题之外,AI Coding是否会带来生产关系的变革?向外再推演一步,AI Coding的生产之外,在分发上会有新的机会和模式吗?


History tends to rhyme, if you listen. 这是Chris文章里的第一段话,也作为我们这篇文章的最后一段话吧。一个充满想象力的未来正在到来,我们都是见证者和参与者,欢迎感兴趣的朋友一起互动交流,共同探索未来:)


文章来自于“Z Potentials”,作者“Yi Sun, Daini Wang, Bei Sun”。


狂融数十亿美元的AI编程赛道,我们测评了12款当红产品,最惊喜的不只Cursor

关键词: AI , AI编程 , Cursor , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0