Cursor自研模型Composer 2反超Opus 4.6!价格脚踝斩,氛围编程沸腾了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Cursor自研模型Composer 2反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
8459点击    2026-03-20 12:34

倒反天罡了朋友!


Cursor新模型不仅性能超越Claude,而且价格更是直接“脚踝斩”(都不说腰斩了)


众所周知,Cursor作为模型提供商,早期还靠供应Claude模型狠狠吸了一波粉。


结果现在,它自己搞出了一款编程模型,而且转身就把Claude拉下马了——


其最新编程模型Composer 2,不仅能力超越Claude Opus 4.6,关键是价格降了非常多。


就这么说吧,别人降价是“腰斩”,它这直接是“脚踝斩”


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


那么问题来了,Cursor凭啥能在大家都“涨价”的时候把价格打下去呢?


(注:随着“龙虾”爆火,全球大模型Token消耗量呈指数级增长,所以从年初开始,国内外云厂商和大模型公司都在集体涨价。)


答案,Cursor也随之公布了——


一种新的强化学习方法


比Opus 4.6更强,价格还down down down!


先说目前已经在Cursor上线的Composer 2


从名字英译“编曲家”你就能猜出来了,这款模型主打的是“编程家”(bushi。


鉴于“龙虾”爆火后编程消耗的Token用量一路激增,所以Cursor当下只有一个目标——


性价比、性价比、还是性价比。


何谓性价比?自然是“兼顾智能与成本的最优组合”。


能力方面,Cursor表示:


Composer 2在我们衡量的所有基准测试上都取得了大幅提升,其中包括Terminal-Bench 2.0和SWE-bench Multilingual。


比如在衡量智能体终端操作能力的Terminal-Bench 2.0上,其水平目前已经跃居GPT-5.4和Claude Opus 4.6之间。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


而且从Composer模型的迭代来看,其进化速度正不断加快。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


定价方面,标准版Composer 2的输入价格为0.5美元/百万tokens(约合人民币3.5元)、输出价格为2.5美元/百万tokens(约合人民币17.2元)


你瞅,和Claude Opus 4.6相比,几乎真到了“脚踝”的程度。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


与此同时,Cursor还推出了一个“智能水平相同但速度更快的变体”——Composer 2 Fast


这款默认模型的定价为,每百万输入tokens 1.5美元(约合人民币10.3元)、每百万输出tokens 7.5美元(约合人民币51.7元)


和Claude Opus 4.6相比,它不仅延续了价格优势,而且速度更是一骑绝尘。


而据Cursor透露,它之所以能在性能和价格之间取得平衡,核心还是靠引入了一种新的强化学习方法


划重点,该方法不是推理技巧,而是实实在在训练出来的能力。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


引入“做笔记”强化学习方法


如果用一句话来总结这种新方法,那便是:


让模型学会“自己给自己做会议纪要”,从而把原本记不住的超长任务,一步步接着干下去。


Cursor的原话如下:


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


虽然这种名为“自我总结的强化学习方法”听起来有点拗口,但思路其实很清晰。


它核心解决的问题是——


如今大多数AI编程助手都很能干活了,但一旦任务变长、变复杂,就会开始不停掉链子。


这背后的原因呢,大家也都很清楚:上下文装不下


一个复杂工程任务动辄就是上万行代码、上百步操作,而模型的上下文窗口总是有限的,所以很多任务根本跑不到终点。


而为了突破上下文瓶颈,目前业界围绕“压缩”有两种主流解法:


  • 要么做摘要,总结一波再继续;
  • 要么直接通过滑动上下文窗口,丢弃较早的上下文。


又或者一些比较新的探索尝试——在潜在空间中压缩,将上下文压缩成向量而非文本(这种方法虽然比文本压缩慢但准确率更高)


但不管是哪种,初步看下来都不够靠谱,它们都有可能导致模型遗忘上下文中的关键信息,从而在推进长时间运行的任务时降低其效果。


换言之,任务越长,模型越容易跑偏


而Cursor的解法是——首先总结很重要,其次把这种总结能力内化成模型自己的能力也很重要。


所以他们给自家模型加了一套“self-summary(自我总结)”的机制:


模型干活干到一半,不是被动压缩,而是主动停下来给自己写一段“阶段总结”,俗称“做笔记”。


具体流程大致如下:


1、Composer基于提示词持续生成,直到达到固定的token长度触发点。2、插入一个合成查询,要求模型总结当前上下文。3、给模型提供一定的草稿思考空间,让它构思最佳总结,然后生成压缩后的上下文。4、Composer使用压缩后的上下文回到步骤1;该上下文包含总结以及对话状态(规划状态、剩余任务、之前总结的次数等) 。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


这里面比较关键的一点是,模型的自我总结能力不是推理技巧,而是训练出来的


在强化学习过程中,这种总结能力会被算进奖励里:


  • 总结得好→后面任务更容易成功→奖励更高
  • 总结丢信息→任务失败→被惩罚


结果就是,模型慢慢搞清了:什么信息值得留下,什么可以丢掉。


具体效果可以看和传统方法的对比。


在一组高难度软件工程任务上,“传统摘要法”光是总结提示词就要写几千个tokens,而且压缩后的结果也不短,平均需要5000+tokens。


而Composer的提示词非常简单,基本就一句话“Please summarize the conversation”,且压缩后的输出平均只有1000个tokens。


在同样的任务上,后者token用量只有传统方法的1/5,而且压缩带来的错误直接减少约50%


换句话说,压缩得更狠,但信息更关键。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


更有意思的是,它真能解决长链条任务。


Cursor拿出了一道难倒一众模型的经典难题——把Doom游戏跑在MIPS架构上


我已经提供了 /app/doomgeneric/,也就是 doom 的源代码。我还编写了一个特殊的 doomgeneric_img.c,希望您使用它;它会将绘制的每一帧写入 /tmp/frame.bmp。最后,我还提供了 vm.js,它会读取一个名为 doomgeneric_mips 的文件并运行它。其余部分请您自行解决……


由于需要模型自己改代码、编译调试、反复试错……所以很多模型到后来基本都直接卡死了。


但Composer在经过170轮交互后,找到了精确的解法,并在过程中将10w+tokens总结压缩到了1000个。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


总之,一系列内部测试表明:


通过将压缩整合进训练循环,Composer学会了一种显式机制,能够高效地将关键信息向后传递,并在高难度任务上变得更有能力。


而且前面不是说了Cursor节奏很快,这不,Cursor研究员也已经开始放出Composer 3的消息了。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


只能说发展到现在,Cursor以后也是有双重身份的“人”了。其CEO表示:


Cursor是一个典型的新公司,既不是纯粹的应用程序开发商,也不是模型提供商。


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


就是不知道能不能等一个开源?反正抱抱脸联创兼CEO已经去帮大家求了(抱拳jpg)


Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了


参考链接:

[1]https://x.com/mntruell/status/2034729462211002505

[2]https://x.com/RoboIntellect/status/2034693646822580431?s=20

[3]https://x.com/cursor_ai/status/2033967614309835069?s=20


文章来自于微信公众号 “量子位”,作者 “量子位”

关键词: AI新闻 , Cursor , Composer 2 , AI编程
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0