Cursor套壳Kimi这事还没完……
最新消息,Cursor放出Composer 2技术报告,力证自己还是有在“自研”。(doge)
不是纯套,而是有技术地套、循序渐进地套。
用的方法,还是他们一开始就强调的预训练+强化学习。
不过这一次Cursor学乖了,老老实实署名Kimi K2.5。

滑跪速度之快,态度之诚恳……甚至和Kimi官方达成了和解。
但网友们似乎并不买账。

报告开篇第一件事,Cusor终于上道,先夸一波友商Kimi:
训练前,我们评估了多款潜在的开源基础模型,包括GLM5、Kimi K2.5和DeepSeek V3.2,但Kimi K2.5是最棒的!
选定Kimi K2.5的理由,不仅是因为其综合能力突出,也考虑到了其在自研基础设施中的执行效率等附加因素。

(咳咳)要说Cursor经此一事,总算是把中国开源模型的“体面”学到了十成十。
其次,基于Kimi 2.5,Composer 2还经过了两步独立的训练流程:持续预训练和异步强化学习。
1、持续预训练
其目的是为了提升模型在编码领域的基础知识和潜在编码能力,为后续智能体RL训练打下基础,主要分为三个子阶段:
先将大部分计算资源投入到32k token序列长度的训练中,再进行短期的长下文扩展训练,将序列长度提升至256k,最后通过小样本指令调优(SFT)完成特定代码任务的适配。
另外,为提升模型的线上推理速度,还新增了多token预测(MTP)层,结合投机解码技术和自蒸馏策略,保证模型收敛速度。
在训练过程中,模型在自研代码库上的损失值呈对数线性下降,且代码库困惑度与下游RL性能正相关,证明了预训练的有效性。

2、异步强化学习
训练环境高度模拟真实的Cursor对话场景,构建涵盖各类软件工程核心任务。
整体的强化学习训练框架基于大规模策略梯度实现,同时为保证训练的稳定性,采用单指令多样本的策略梯度算法,并设置固定的样本组大小。
同一指令仅参与一次训练,使用Adam优化器,在训练过程中更新模型全部参数。然后优化GRPO算法,移除长度标准化项,以避免长度偏差,再引入KL散度(k1=-log r)实现正则化。
同时研究发现,最终模型的平均性能和best-of-K性能同步提升,证明RL不仅重新加权推理路径,还扩展了正确解的覆盖范围。

除此之外,Composer 2还添加了一系列辅助奖励机制,包括针对代码风格、交互表达的正向奖励,以及针对不当工具调用的产品级惩罚,并根据训练中涌现的行为动态调整奖励规则。
在基准测试上,Cursor也端出了一套自研的内部评估集——CursorBench。
CursorBench的任务均来自真实的Agent使用场景,且不再仅以功能正确性为唯一标准,还会依次考量模型的代码质量、执行效率、智能体交互等多维度。
数据显示,CursorBench的代码修改量更大(中位数181行),而SWE-bench验证集和多语言版仅为7-10行;同时,CursorBench的指令提示更简洁,中位数仅390字符,远低于公开基准测试的1185-3055字符。

具体到测试结果上,Composer 2在CursorBench-3中的准确率可达61.3%,较1.5版本相对提升37%、较1版相对提升61%。
和Kimi K2.5相比,准确率也实现了大幅度提升。

综合来看,Composer 2在成本层面实现了帕累托最优,推理成本与更小的模型相当,而精度又同时媲美大尺寸前沿模型。Token使用效率也与其它SOTA模型持平,无额外资源消耗。
u1s1,这怎么不算Kimi K2.5 pro版呢?只不过出品方变成了大洋彼岸的Cursor。
基础模型开源+技术报告开源,Cursor这波也可以说是另一种意义上的“开源”了。(doge)
也欢迎全世界套壳支持咱中国开源模型,但记得署名就好~
就在Cursor发报告为自己找补的同时,另一边Kimi早已“朝前看”——
杨植麟在刚刚中关村论坛的演讲中,详细分享了自己和Kimi团队在开源模型及模型训练领域的最新思考。
首先,他认为大模型的本质是将能源转化为智能,其中最重要的事情是要规模化。
换言之,就是要尽可能将更多的能源,通过算力和模型载体,转变成更多更高程度的智能。
而大模型规模化,也就是大家常说的Scaling Law,不等同于无脑堆算力,而是要讲方法、讲效率。

Kimi的Scaling策略在于三点:
1、提升Token效率。
真正厉害的模型,比的不是谁算力更猛、数据堆得更多,而是谁能用同样有限的数据,学到更多的智能。
2、扩展上下文长度。
模型能够处理更长的上下文,意味着它能够更复杂、更长程的逻辑,从而完成更复杂的任务。
为此Kimi专门设计了新的网络架构Kimi Linear和训练数据,从根本上提升长上下文能力,而不是简单粗暴地拉长窗口。
3、引入Agent集群。
这也是在Kimi K2.5中全新提出的一种思路,不再死磕将一个模型做到极致,而是通过引入一群Agent协作来解决更为复杂的问题。
然后通过Agent集群能力,去实现规模化输入、输出、执行或编排。

同时,Kimi也认为好的底层网络架构也相当重要。
比如,他们最新开源的模型架构注意力残差(Attention Residuals),可以认为是将注意力应用在网络深度上的LSTM变种,让模型能够更高效地利用所有层信息。
但其实Attention架构、残差学习这些都是多年前的经典技术,现在算力更强、研究更偏向工程化+大规模验证,就不能只靠理论想法,过去的标准答案也可以被重新挑战和改进。

至于开源这事儿,要做,还要继续大力地去做。
开源模型正在逐渐成为新的标准。而以Kimi K2.5为代表的开源模型,已经成为全世界所有芯片厂商测试硬件性能的基准。
现在全世界很多研究机构也都在用Kimi K2.5进行研究。我们希望通过开源,让所有人都能以非常低的门槛获取智能。
最终,大家能够去形成一个开源生态系统,共同推动AI领域的发展。
要不还得说真·开源得看国产模型~
最后,杨植麟还断言:
大模型训练已经进入第三阶段!

如果说2023和2024年,大模型训练还是以天然数据为主,少量人工标注为辅。那么到了2025年,业内则更加重视人工筛选高质量任务,以及搭建大规模的强化学习系统。
而从2026年开始,整个AI研发流程将发生重大变化:研发主体将从人转向AI,AI自动合成任务、构建训练环境甚至探索新的模型架构,而研究员更多的是提供算力和Token资源。
简单来说,就是从数据靠人采→任务靠人选→训练全靠AI自己搞,AI将从被训练者,逐渐变成研发参与者乃至主导者。
未来AI领域的研发速度,将会以远超我们想象的节奏持续加速。
参考链接:
[1]https://x.com/cursor_ai/status/2036566134468542651
[2]https://cursor.com/resources/Composer2.pdf
[3]https://mp.weixin.qq.com/s/GjN_dx380VnUmRWHGRajiA
文章来自于微信公众号 “量子位”,作者 “量子位”
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner