280美元一单!1000名工程师教Claude写好代码

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
280美元一单!1000名工程师教Claude写好代码
6239点击    2026-06-09 14:33

Anthropic自家工程师早已基本不写代码了,却280美元一个任务,花钱请约1000名外部工程师,手把手教Claude Code写出好代码。喂养前沿模型的,终究还是人。


最近,一篇报道把Claude Code的「进步秘笈」摆在了台面上。


Business Insider称,Anthropic有一个专门提升Claude Code的项目,正在通过约1000名软件工程师的反馈来打磨它。


这个项目在数据公司Snorkel AI内部,代号为「Marlin」。


280美元一单!1000名工程师教Claude写好代码


早在今年1月,Claude Code负责人Boris Cherny就爆料自己已经两个多月没手写过一行代码,一天就让Claude提交22个拉取请求(Pull Request),前一天则提交了27个,全是模型写的。


也有报道称,Anthropic内部代码也大部分由AI生成。


有趣的地方,正在这儿。


一边,Anthropic自家核心工程师已经把大量编码工作交给模型;另一边,它在花钱请约1000名外部工程师,手把手教Claude Code什么才叫「好代码」。


一小时280美元

买的到底是什么


按Business Insider的说法,Marlin项目请的外部工程师都有软件工程背景。他们的活儿,听上去很像一次真实的代码评审。


流程大致是这样。先从一份包含数千个仓库的清单里,选一个GitHub的代码仓库。然后建一个PR,也就是开发者提交代码修改的那一步。再写一段提示词,把任务讲清楚。


模型会生成两套代码,而这些外部工程师接下来要做的,是A/B测试:比较两套输出,选出更好的那一套。


每个任务报酬280美元,大约花一小时。有些还要和Snorkel的审核层来回好几轮。


评判的标准,是评估生产级代码的正确性、安全性、可靠性和可维护性。


举两个真实的例子。


在一个任务里,外部工程师让模型重构系统处理执行元数据(execution metadata)的方式,目标是让代码更清晰、更好维护,但不改变功能。


另一个任务中,外部工程师给MLflow这个开源机器学习平台做安全修复,针对它加载模型时下载Python包可能出现的命令注入漏洞。材料的要求十分明确:既要挡住命令注入,又不能误伤合法的pip(Python包管理器)选项。


这些任务的要求,已经超出了数据标注的范畴,更像是要让一个资深工程师,把脑子里那套「这样写更好」的判断原样拷给模型。


显然,Anthropic购买的并非代码,而是资深程序员头脑中那个如何把代码写得更安全、更干净的判断。


为什么非得是工程师


Anthropic为什么要如此大费周章?因为Claude Code早就不是一个写代码的聊天框了。


Anthropic官方把它定义为项目级的AI智能体。它能读完整个代码库,跨文件做规划,直接执行修改,跑测试,再根据失败的结果自己迭代。


280美元一单!1000名工程师教Claude写好代码


Anthropic官网对Claude Code的定义:一套能读代码库、跨文件改动、跑测试、交付已提交代码的智能体。


这意味着它会真的动手改文件、跑任务,接触整个代码工程。


Anthropic自己也清楚这件事的分量,因此在工程博客里反复讲Claude Code的权限、沙箱和批准疲劳(approval fatigue)问题。


默认情况下,高风险文件修改或命令执行需要用户批准;为减少反复授权带来的 批准疲劳,Anthropic还引入了sandboxing,让Claude Code在预设文件系统和网络边界内更安全地运行。


当一个AI能跑命令、能动线上代码,犯错的代价就完全不一样了。训练目标也跟着变:从「写对」升级到「写得安全、可靠、可维护」。


这些东西,普通的代码语料喂不出来。它过去藏在资深工程师的代码审查里,是人传人的经验。现在,Anthropic想通过招募人类编程专家,把它变成可以购买的数据。


Snorkel

被低估的「数据军火商」


整件事情的真正主角是Snorkel。


这家公司2019年从斯坦福AI Lab走出来,押注的方向只有一个:真正决定机器学习成败的是数据,而不是模型或者算力。


Snorkel的两位重要创始人是Alex Ratner和他在斯坦福的导师Chris Ré,他们说Snorkel的核心学术源头。


280美元一单!1000名工程师教Claude写好代码

Snorkel AI联合创始人、CEO Alex Ratner


2015年,Snorkel还只是Ratner读博时的一个「下午项目」:与其花大价钱雇人一条条标数据,不如用程序和规则做「弱监督」(weak supervision),让模型不靠人工逐条标注也能学。


靠着这套思路,Snorkel攒下60多篇论文,开源工具也被Google、Intel用了起来,直到2019年才正式拆分成公司。


280美元一单!1000名工程师教Claude写好代码

Snorkel AI联合创始人,斯坦福教授Chris Ré


Ratner的导师Chris Ré也是个狠角色。


他是斯坦福教授、麦克阿瑟天才奖得主、连续创业者,参与的项目曾被苹果收购,还创办了估值一度达50亿美元的SambaNova。


最有意思的还是这家公司的转身。


Snorkel当年要破的,正是「人工标注又慢、又贵、又不稳」这个老大难,那时AI开发约80%的时间都耗在手工标注数据上,因此Snorkel最初的梦想,就是尽量把人从标注里解放出来。


可到了前沿模型时代,最稀缺、最值钱的又回到了人身上,只是换成了博士、医生、律师、资深工程师等专家的品味和判断。这家靠「少用人」起家的公司,如今最赚钱的生意反倒是组织一支昂贵的专家大军去训练前沿AI,Marlin只是其中一单。


它的工作流,刚好也呼应了Marlin项目的需求。


Snorkel官网这样描述这套工作流:先定义任务、评分标准和验证器,框定「什么算好」,再跑专家评审流水线,作者、多名评审、最终裁决者层层把关,全程留痕。


280美元一单!1000名工程师教Claude写好代码

Snorkel官网示意:评审打分出现分歧后经裁决解决,并写入评分标准变更记录,每处改动都可追溯到谁、何时、依据什么。


它还会把评估环境和数据一并搭好,让同一批任务能在不同模型版本上反复跑,得出可复现、可比较的分数。而要让分数干净可比,评分的人就不能受版本干扰。这些外部工程师不知道自己评的是哪个版本,原因就在这儿。


报价也很能说明问题。


Snorkel一个公开的法律方向合同岗,每个高质量任务10到100美元;而Marlin的软件工程任务是280美元一个、约一小时,折成时薪差不多是同行的两倍半(Scale AI、Mercor给工程师开到每小时110美元)。顶尖专家周入还能超过3000美元。


Snorkel招募的这些外部工程师的反馈,是真的贵。


客户名单里有Google、Mistral、Anthropic。2025年5月,Snorkel完成D轮融资,估值13亿美元。


Anthropic营收负责人Kate Jensen表示,要把Claude的潜力完全释放出来,得靠引入领域专家和人类反馈的新评估方法,Anthropic会持续和Snorkel这样的公司合作。


Snorkel、Scale、Mercor这些公司,过去被当成「标注平台」。如今它们成了前沿模型公司背后的隐形供应链。


给最聪明的AI喂料的,就是这样一支散布全球、看不见的专家大军。


几个巨头

抢的是同一种数据


不只是Anthropic在买真实工程能力。这场竞赛,几个重磅玩家都在参与,只是打法不同。


Cursor走的是产品数据这条路。


它官方写明:用户开启隐私模式后,代码绝不会被它或第三方用于训练;只有关闭隐私模式,它才可能用代码库数据、提示词、编辑行为、代码片段,来改进AI功能、训练模型。


Cursor的Tab模型每天产出超过10亿个编辑字符,请求量比初版涨了约100倍。更进一步的Composer,通过强化学习(RL)训练,让模型在大量代码任务环境中学习调用编辑、搜索等工具,处理更长周期的工程任务。


到最新的Composer 2.5,干脆主攻需要数百步操作的长周期任务。


马斯克采用的是资本绑定/收购期权的方式。


今年2月,xAI并入SpaceX。4月底,SpaceX拿下了年内以600亿美元收购Cursor母公司Anysphere的权利,或者先付100亿美元做深度合作。马斯克看中的正是Cursor手里那份全球最活跃的真实开发者行为数据。


5月25日,马斯克在X上宣布,新一代基础模型Grok V9-Medium训练完成,参数1.5T,是当前生产模型的3倍。他特意点出,这还是没加Cursor数据补训之前的成绩,加完「编程能力会强很多」,模型预计6月中旬发布。


280美元一单!1000名工程师教Claude写好代码


这样一来,V9会是第一个系统性地「吃过」真实开发者行为数据的Grok。


OpenAI后来的Codex也走上了这条路。2025年发布的Codex由codex-1驱动,OpenAI称其是在真实编码任务上通过强化学习训练的,目标是写出贴近人类风格、符合PR习惯的代码,还能反复跑测试直到通过;每个任务跑在预装了你代码库的隔离沙箱里。


如今Codex已升级为OpenAI的agentic coding平台,由其前沿编码模型驱动;据Axios报道,每周用户已超过500万。


他们争夺的,其实是同一种东西:过程数据,只是路径各不相同。


Anthropic先有模型,缺真实开发现场的反馈,就花钱请约1000名工程师,把软件工程过程拆成可学习的数据


Cursor先有产品和真实用户行为,也有自研的Tab、Composer等编程模型。但相比OpenAI、Anthropic,它更缺的是通用基础模型底座和大规模训练算力


马斯克缺的也是数据,干脆试图用几百亿美元去买一个持续产生开发者行为数据的产品入口


OpenAI模型、产品两头都不缺,于是自己搭沙箱,让模型在真实编码任务里通过强化学习一遍遍试错、测试、修正、迭代。


几家打法不同,殊途同归,都在用越来越接近真实工程现场的数据,来训练自己的AI编程模型。


280美元一单!1000名工程师教Claude写好代码


真正的护城河

是人的品味和判断


有一篇叫SWE-chat的论文,第一次大规模采集了真实的智能体编码会话:6000段、超过6.3万条用户prompt、35.5万次工具调用。


它得出一个扎心的数字:智能体产出的代码,只有44%最终进入了用户的提交里。有一半多的命运被人删了、改了、推翻了。


280美元一单!1000名工程师教Claude写好代码

SWE-chat实测:vibe coding已占41%的会话,但智能体写的代码只有44%最终进入提交;用户在44%的交互轮次里通过纠正、报错或中断来反推模型输出。


这说明,HumanEval那类老的基准测试(benchmark)已经刷到饱和,光看跑分意义不大了。真正的战场,是真实开发过程里那些反复、试错、推翻重来的数据。


模型越强,越要花钱去买人类还没被替代的那部分东西:工程直觉。


Anthropic花280美元一个任务,请来约1000名工程师做A/B投票:这套看上去笨重的活儿,买的正是这一点。


谁能把工程现场变成模型能消化的数据,谁就握住了进入AI编程下一程的入场券。


参考资料:

https://www.businessinsider.com/anthropic-improve-claude-code-snorkel-data-training-contractors-2026-6%20

https://snorkel.ai/blog/anthropic-claude-aws-revolutionizing-pharma-data-analytics-with-snorkel-ai/


文章来自于"新智元",作者 "元宇"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0