深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性
6038点击    2025-04-26 15:49

深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性


图片来源:No Priors


Z Highlights


  • 人类数据市场正经历一次巨大变革。这个市场原来是众包模式,即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。


但现在正转向“筛选”问题:要找到世界上最顶尖的人才,与研究人员一起合作,推动模型能力的边界。


  • 我认为其中最重要的一点是,过去的大多数评估任务都是“零样本”测试,比如说一条测试题目对一个模型。这种测试可能很学术化。


但我们现在真正需要评估的是“经济上有价值的工作”。比如一个软件工程师的实际工作远不只是写个PR。


他还要与多个相关方协调:理解产品经理的需求,它是如何与各个团队的优先级匹配的,以及这些怎么最终落实到实际工作产出上。


  • 我们未来会有这些Agent来承担目前由员工执行的各类角色,它们会与人类员工并肩工作,而人类员工也会帮助构建这些评估任务。


我还认为我们市场上的合同工将在其中发挥重要作用。我们将会看到一个庞大的评估任务eval生态系统建设,为了给每家企业定制Agent。


Brendan Foody是Mercor的联合创始人兼CEO,同时也是一位Thiel Fellowship奖学金获得者,他正在推动一场关于“人才评估与分配”的根本性变革。


本文是No Priors 主持人Sarah Guo和Elad Gil与Brendan Foody的访谈实录。


AI 赋能人才评估的新范式


Brendan Foody:谢谢你邀请我。我很高兴能来到这里。


Sarah Guo:最近六个月你们公司发展得特别快,势头惊人。你能简单介绍一下Mercor到底是做什么的吗?


Brendan Foody:从宏观上来说,我们训练模型来预测一个人能否胜任某项工作,而且比人类判断得更准确。


就像人类会审阅简历、面试并决定录用谁一样,我们用LMS系统自动化了整个过程。


它的效果非常好,以至于所有顶尖AI实验室都在用它来招聘数以千计的工作人员,这些人正是在训练下一代模型。


Sarah Guo:那这些实验室现在主要在招聘什么样的技能和职位呢?


Brendan Foody:实际上,是所有具有经济价值的技能。因为强化学习的效率越来越高,只要你能设计出评估任务(evals),模型就能学习并提升对应的能力。


所以,凡是我们希望LMS精通的能力,我们都需要有相关的评估任务。这些能力从咨询、软件工程师,一直到视频游戏领域的爱好者,应有尽有。


可以说,只要是基础模型公司或应用层公司正在投入的方向,评估任务就是最上游的需求。


Elad Gil:你们现在也在帮助核心基础模型之外的公司进行类似的招聘吗?还是目前还主要集中在AI模型相关的领域?


Brendan Foody:是的,其实我们刚开始创业的时候,和“人类数据”一点关系都没有。


我们最初的出发点是:全球各地都有非常有天赋的人才,但他们没有机会,而我们可以用LMS来提升他们被发现和被雇佣的效率。


后来,我们接触了一些客户后发现,人类数据市场正经历一次巨大变革。


这个市场原来是众包模式,即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。


但现在正转向“筛选”问题:要找到世界上最顶尖的人才,与研究人员一起合作,推动模型能力的边界。


尽管如此,我们依旧保留了“为职位招聘人才”的核心基因,无论是用于人类数据还是其他用途。我们很多客户现在两方面的招聘都在做。


Elad Gil:你觉得未来所有的招聘最终都会转向由AI系统来评估人才吗?尤其是知识型工作?


Brendan Foody:我觉得是的,因为我们已经在很多评估任务中看到,模型在评估人才方面的表现比人类招聘经理更好。而且现在其实还只是早期阶段。


我认为未来我们会进入一个阶段——不听从模型建议就是不理性。


人们会高度信任模型的推荐,也许出于法律原因,最终决定还需要人类按下确认键,


但实质上,我们会更多依赖模型来决定谁该做什么工作或任务,而不是依靠人类判断。


Elad Gil:人们经常说某个领域有“10倍人才”,比如编程里有些程序员比平均水平高出一个量级,医生、投资者也一样。你们的模型能识别出这种“异类”吗?


Brendan Foody:这是最让我着迷的部分之一。知识型工作的价值输出本身就是呈幂律分布的,这凸显了绩效预测的重要性。


想象一下,如果你能判断出某个工程团队中哪些人能达到90百分位的表现,


或者能识别出某个成本仅一半但表现能进前25%的人,这会极大地影响客户的决策方式,也会影响我们的商业模式长期价值的评估方式。


而这些又都回到一个核心问题:我们如何衡量客户的最终成果,并真正围绕这个目标进行构建。


Elad Gil:那么这个分布真的是幂律分布吗?因为很多人总觉得人类表现是钟形曲线(正态分布),你认为这个认知对于知识型工作来说是否正确?


Brendan Foody:这个其实是因行业而异的。比如投资行业,它就是最典型的幂律分布,每十年最顶尖的几家公司决定了大部分的成果,投资者也是赢者通吃。


而如果你是在招聘工厂工人,那这个技能就比较标准化,人与人之间的差异也不那么大。


我觉得软件工程介于两者之间,它确实有幂律特征,但可能不像顶尖投资者那样极端。


Sarah Guo:你觉得哪些领域是模型在评估方面比人类更擅长的?是因为技能分布的问题,还是因为这些技能更容易测量?


Brendan Foody:是的,只要是用文本能测量的,模型就表现得非常出色。比如你能通过面试提问,阅读答题记录,那么模型在很多领域都能达到超人类的水平。


比我一开始想象得还要领域无关(domain agnostic)。当然,有些方面模型目前还稍慢,


比如多模态信号的理解,比如这个人对工作的热情程度有多高、他在销售方面有多具说服力等,这些能力模型未来会具备,但还需要时间去发展。


这是我目前的一个思考框架。


Sarah Guo:所以如果我在面试某人时,他说了一些关于“工作动力”的漂亮话,但我并不相信,这种不信任感也许是一种高阶的预测信号?


Brendan Foody:完全没错。还有一点是,模型在处理高体量流程时更擅长。


比如你评估20个人做同一份工作,并追踪他们的实际表现,那么你很容易将某些简历或面试中的特征与其后期表现关联起来。


这是一种“堆叠排序”的逻辑。我们能理解,某个人在简历中提到的某个细节,就是导致他后期表现突出的关键。


但如果这20个人是做20种不同的工作,那因果链条就复杂得多,几乎很难找出哪些特征在起作用。


所以,那些高体量、流程标准化的招聘过程将是最容易实现自动化的部分。


劳动力转型与任务替代的临界点


Sarah Guo:首先,你有没有在你们目前正在从事的领域中,发现到了一些“识别杰出人才”的特征,是让你感到惊讶的?


Brendan Foody:这是个非常好的问题。


Sarah Guo:或者说比如在工程领域,因为那对我们很多听众来说是很相关的。


Brendan Foody:在工程方面,一个非常有趣的事情是,网上有非常多关于最优秀工程师的信号,但我觉得人们并没有真正利用好这些信号。


这些信号的来源包括他们的GitHub页面、他们网站上的个人项目、他们大学时写的博客文章。这些都因为被手动流程所限制了。


招聘经理没时间把这些材料都读一遍。他们没时间,或者对设计师来说,也没时间在开始筛选之前去看完别人Dribbble主页上的所有提案或图片。


所以我认为,人们最忽视的一类信号就是这些在线上可以找到的内容。


而对于很多可以通过面试获取的信号,比如这个人有多有热情、他是否具备你想要的技能,我觉得人类在这方面相对还可以,至少现在的适应能力会稍微强一些。


Elad Gil:那有没有一些隐藏的信号存在于那些在线作品不多的领域?比如医生、律师这些专业?


Brendan Foody:是的,有各种各样的这类信号。我们以前发现的一个有趣现象是,那些在国际上生活但在西方国家留学的人,往往更善于合作或更擅长沟通。


这类信号在事后看是很合理的,但对于一个不了解全部市场背景的人来说却很难识别和理解。


而你可以想象,最重要的事情之一就是,这个人对某个领域的内在动机和热情有多强。因此我们需要从简历、面试以及线上内容中去寻找这类信号。


我们要搞清楚:到底是什么能说明这个人热爱这个方向?这个问题不仅关乎你该雇佣谁,还关乎你该让这些人去做什么工作。


想象一下雇一个生物学博士来做生物项目,和雇一个写了关于药物发现的论文的人来设计问题、提出与论文相关的创新解决方案,这两者之间的差异。


现在我们在匹配人才和使用这些信号方面存在巨大的低效。


Elad Gil:所以你们在评估人的同时,也会对模型进行评估。


Brendan Foody:对,当然会。


Elad Gil:那你怎么看待未来人类会被这些模型取代的比例?


也就是说,如果你能比较人和模型的表现、输出,那你是怎么开始思考“替代”还是“增强”或其他相关问题的?


Brendan Foody:很多岗位的替代会来得非常快,而且会非常痛苦,也会引发重大的政治问题。


我认为我们会看到一场非常大的民粹运动,围绕即将发生的这些取代现象。但经济中最重要的问题之一就是,如何应对这件事。


我们该如何安排那些现在在做客服或招聘的人在几年后去做什么?


一旦我们接近超级智能,特别是如果它的价值和收益是呈幂律分布的,那我们又该如何重新分配财富?我花了很多时间在思考这个问题将如何发展。


Elad Gil:你觉得最终会发生什么?比如说,X%的人会被从白领工作中取代,那你觉得他们该做什么?


Brendan Foody:我觉得会有更多的转向实体世界。我还觉得有很多工作会变成一种“小众化”的状态。


Elad Gil:“实体世界”是指什么?


Brendan Foody:它可以是很多事情,比如说创建机器人数据的人,也可能是餐厅里的服务员,或者是心理治疗师,


因为人们总是希望有某种“人际互动”,不管形式是什么。


我认为实体世界的自动化速度会比数字世界慢得多,这是因为数字世界中有太多自我强化式的收益与改进,而这些在实体世界中是很难实现的。


Sarah Guo:那你现在是否有个观点,比如人类应该投资于什么样的技能、知识和推理能力,来保持自身的经济价值?


Brendan Foody:有人曾问Sam Altman关于这个问题,他的回答是,人们应该优化自己去变得更有适应性、更善于学习、能快速转型。


我觉得这个说法很有共鸣。因为有太多事情你原以为模型做不了,结果它们很快就做得很好了。所以你唯一能做的就是快速适应它们的发展。


Elad Gil:那你认为,哪些特征的任务是模型最容易学会的?换句话说,如果你要总结一个启发式准则,这个准则包括哪些要素?


Brendan Foody:可验证的任务,比如数学或代码,只要能验证,最终一定会被模型攻克。


Elad Gil:所以你是说,要有反馈循环或效用函数让模型优化它的行为,对吧?


Brendan Foody:没错。对于那些无法验证的任务,比如说一个创始人的“品味”如何,那就很难被自动化。


而且这类信号也很稀疏,因为……嗯,这类任务本身就没有太多数据。


Sarah Guo:这是一个非常基础的研究问题:除了代码和数学之外,你觉得还有哪些关于“可验证性”的有趣想法?


Brendan Foody:我认为可以通过某些自动评分器,或者人类可以制定一些评估标准,然后让模型去应用这些标准。我对此的发展非常感兴趣。


当然,还有很多领域,模型会处理结构化数据,并搞清楚如何进行验证。这非常依赖行业本身。我觉得不太可能是某个实验室能够在所有领域都做到这件事。


随着我们不断前进,每个行业的边际收益也会越来越小,专精化也会越来越强。


Sarah Guo:那你是否相信,模型在代码和数学这类推理任务上表现出的智能,可以泛化到其他领域?


比如说,如果我在数学证明方面特别强,那我最终在智能上会更有优势吗?


Brendan Foody:我总体上相信这种泛化是存在的。但它还是需要在新领域中有一个合理量的数据来启动。但确实会发生很多知识迁移。


Elad Gil:学习。我觉得看Sarah做数学证明很有趣,所以我觉得这有时候……


Sarah Guo:实际上,我觉得不擅长证明反而挺有趣的。好了,我们来谈谈Evals吧,因为你现在正处在模型能力前沿的工作中。


最近人们有种“评估危机”的说法——模型变得太强,在某些能力边界上几乎难以区分。我们现在都不知道该怎么测试它们了。


更别说还有很多人会操纵基准测试。你怎么看?我们该如何评估这些模型,尤其是当它们变得超人类之后?


Brendan Foody:我认为其中最重要的一点是,过去的大多数评估任务都是“零样本”测试,比如说一条测试题目对一个模型。这种测试可能很学术化。


但我们现在真正需要评估的是“经济上有价值的工作”。比如一个软件工程师的实际工作远不只是写个PR。


他还要与多个相关方协调:理解产品经理的需求,它是如何与各个团队的优先级匹配的,以及这些怎么最终落实到实际工作产出上。


所以我认为,我们将看到大量针对“Agent”的评估任务被创建。而这,正是当前实现知识型工作自动化的最大障碍。


Sarah Guo:那我们该从哪里开始呢?因为听起来这不像是特别通用的工作。


像Sierra有一个叫𝜏-Bench的东西,我知道人们在试,但它可能还是偏向于某种特定功能。


Brendan Foody:是的,我认为人们需要按行业来设置这些评估体系,而且最好从那些任务更同质化的领域开始。


比如说客户服务就是一个很好的例子,因为客服人员基本上就是操作一个界面,也许还会调用几个工具,


比如访问数据库或阅读文档,但总体上是个比较统一的任务。我认为更具挑战性的任务,也往往是更有价值的任务,是为那些非常多样化的工作创建评估体系。


就像一个优秀的软件工程师所需要的所有素质,这些评估要素会很难定义。我认为即便是对于那些“可验证领域”,构建这样的评估系统也需要数年时间。


因为一个优秀的软件工程师,需要有对问题的判断力,比如什么是解决问题的最佳方式、什么样的产品用户会真的喜欢。这些都是我很期待看到的事情。


Elad Gil:如果你要给年轻孩子的父母提建议,比如说他们的孩子在五到十岁之间。你会建议这些孩子学习计算机科学吗?


Brendan Foody:我大概不会特别推孩子去学计算机科学,但我也不完全反对。


我会更鼓励他们去找那些让他们在智力上受到启发、真正感兴趣的事物,能学会通用推理能力的领域。这些推理能力将会非常有价值,也具备广泛的适用性。


我小时候就很喜欢创业,喜欢琢磨一些小买卖什么的。我觉得这类经历很有帮助。但我对未来“会写代码”是否还是一个高价值技能表示怀疑。


我更相信未来最有价值的是那些拥有“反常识性观点”,知道市场缺什么,并有“品味”去打造出细节合适的产品和方案的人。


Sarah Guo:你刚刚多次提到了“品味”,那你觉得有没有可能在某个领域中识别出“品味”的信号?


Brendan Foody:绝对有。我认为,很多时候你只需要去观察人们是如何思考问题的软性信号。


有些人就是有直觉,比如他们怎么接近一个问题,或者当他们看不同的产品时,能注意到哪些细节差异。这非常依赖行业背景,但确实是非常值得打分的一项能力。


Sarah Guo:那你们具体是怎么做正反馈的?


Brendan Foody:我们做过各种尝试,但通常我们会给人们一个尽可能接近实际工作场景的问题,然后我们会观察他们的表现跟其他人相比如何。


这有助于我们进行评分。


Elad Gil:我知道还有些额外的思维过程评估方式,像是看代码审查或其他类似的中间产出……


Brendan Foody:这是我们确实在做的事情之一。


我在人才评估方面意识到的一点是,很多人过于关注他们在意事物的“代理指标”(proxy),而不是他们真正关心的那个东西。


所以理想情况下,你应该去衡量你真正关心的东西。如果你关心的是这个人是否能构建一个产品的MVP,理想的面试就应该是这个任务的缩小版。


而在任务时间跨度较长的情况下,你就需要用“Agent”,并且设计代理方式以尽可能获取多的信息。这就是我对人才评估的基本思路。


Sarah Guo:我可以问一个关于影响规模的问题吗?如果我考虑今天最大的雇主,比如说,拥有数百万雇员的公司


——当然我不太清楚亚马逊的合同工那些怎么算——那你觉得最终会有多少人从事数据采集工作?


Brendan Foody:我认为数量会非常庞大。原因是,一切都归结于为经济中的每个方面创建evals(一种任务评估)。


这其中一部分是现有的公司员工为公司构建evals,让Agent能够学习什么是“好表现”;


另一部分是通过市场雇佣合同工来帮助完成这些eval的构建。如果这最终成为全球最普遍的知识型工作,我也不会感到惊讶。


Elad Gil:那这种情况会持续多久?因为本质上这些人是在做自我替代的工作。


Brendan Foody:这是事实。


Elad Gil:是一个六个月的周期?还是一个两年的周期?也就是说,在这个任务中,一个人保持相关性的时间大约有多长?


Brendan Foody:总是会有一个“前沿”(frontier)存在,所以我认为——


Elad Gil:除非它变成了“超人类水平”,对吧?


Brendan Foody:对,除非它变得超人类。


Elad Gil:这几乎就是“距离超人类还有多远”的问题。


Brendan Foody:不过我有过一次很有意思的对话,谈到你甚至无法知道你已经拥有了超级智能,除非你已经为每件事都构建了eval。


因为你需要理解人类的基线是什么,以及什么是好的表现——这需要以对人类行为的理解为基础。


Elad Gil:是的,我有个朋友提到奈奎斯特定理(Nyquist Theorem),


它基本的意思是:如果你在采样一个信号,你需要以两倍频率进行采样,才能真正了解那个信号,否则你就无法获得足够丰富的数据去理解它。


他认为这在智能上也适用——你可以分辨某人比你聪明,但你不知道他们到底有多聪明,因为你没有能力以足够高的频率去采样理解它。


所以我总是在思考这个问题:在“超智能”或“超人类能力”的语境中,我们到底能多聪明?


Brendan Foody:好吧,我觉得如果你把这个问题推到极限、假设你已经拥有了超级智能,那你说的很有道理。


但我还会从另一个角度思考这个问题——如果我们将知识型工作划分为两类:一类是完成终端任务(每次都要做,是变动成本);


另一类是构建eval来教模型如何完成那个任务(这是一次性固定成本)。


那么结构上来看,工作会趋向于从“反复做”这种变动成本方式,转向“构建一次就能复制”的eval创建方式。当然,所有这些都取决于我们距离超级智能有多近。


如果模型进步得非常快,那我们也许不再需要太多人类去构建eval。但与此同时,这也意味着我们其他行业同样也不再需要那么多的人类。


所以我们必须认真思考这个比例关系:这种模式是否会到达某种极限,还是说模型开始自己创建eval?


Brendan Foody:我认为模型未来确实会参与到创建eval 的过程。他们可能会提出某种“好表现”的标准,而人类会去验证这些标准。


不过,这仍然需要由那个具体领域的专家来做基础性工作。


Elad Gil:我想到的是像Med-PaLM这样的项目,对吧?比如Med-PaLM 2,这是Google打造的一个医学模型,它的输出已经比普通医生表现更好了。


他们用医生专家组来评估模型的输出和医生的回答。而模型的表现远超个体医生。那这样一来,在某个时间点上,继续用专家组的反馈反而会让模型变差。


换句话说,如果你继续基于普通医生做微调,模型可能就退化了。所以这里的问题是:什么时候人类评分标准反而会导致更糟糕的结果?


Brendan Foody:我认为模型会有能力区分“有价值的人类知识”和“无价值的人类知识”。


也就是说,假设有医生创建了一堆eval,模型可能会意识到:“嘿,这个医生在这些任务上犯了错,那我就忽略掉这些错误”;


然后它会挑出那些有洞察力的部分,从中学习,并非常重视这些数据。


另一方面我想说的是,我们容易被eval的改进速度所迷惑,让人误以为我们离超级智能已经很近了。


但事实上,从在某个SweetBench上表现出色,到真正替代一个软件工程师之间,还有很多鸿沟。比如我们之前讨论的协调问题,还有很多其他要素。


所以我认为我们还需要大量与工具使用相关的eval、大量Agent的eval。这种建设绝不会只在几年时间内完成。


Sarah Guo:那你是如何看待所有这些“专家型知识工作者”的激励机制的?


因为一个具有架构品味的顶级软件工程师,他的机会成本是可以去Mercor或其他一流科技公司获得一份极好的工作。


而像低技能劳动力中的地理套利机会(Geo arbitrage),在这些高技能领域几乎不存在。你怎么看这类人群为模型提供eval的激励机制?


Brendan Foody:我认为这种情况会逐渐变成幂律分布,也就是说,最顶尖的那部分人将获得极高的收入。


Sarah Guo:那你的意思是,要放大高技能人才所产出的每一点信息价值,对吧?


Brendan Foody:是的,而且你还需要那些模型尚未覆盖的“前沿 eval”。


比如说,一个界定良好的医学问题,你可能需要找到那个世界级的医生,只有他能比模型更好地解决这个问题。


但在更广义的Agentic任务中,比如怎么与病人交流、怎么协调工具进行诊断、怎么在某个时间点发出邮件等等


——对于这种多维度的问题,我仍然相信,在正态分布的中段,那些“中等水平”的人将能持续贡献更长时间。


RFT、Agent和企业的未来协同模型


Elad Gil:你觉得接下来会出现什么重大转变,而目前没有人真正预料到?它可以是特定领域的,也可以是更广义的。


Brendan Foody:嗯,也许我会分两部分来回答这个问题,因为当你说“没人预料到”的时候,我觉得整个国家的大多数人还没有意识到工作的替代速度到底有多快。


这正如我之前说过的,这是个大问题。我认为我们需要非常主动地应对这个问题——无论是作为政府,还是作为一个经济体,等等。


Elad Gil:有没有哪些领域其实已经在大规模失业了,但你觉得并没有被充分报道?


Brendan Foody:其实确实有在报道,比如客服和招聘领域。我认为其中一个挑战是,这类变革往往发生在经济收缩时期,人们会变得更有效率,更注重成本。


所以现在虽然很多事情还没发生,但很快就会发生。


而说到可能连旧金山的科技圈都没有意识到的另一部分问题,是关于“Agentic evals”在那些不可验证领域中极度被低估。


还有一点就是,旧金山的人们往往不会深入思考“人类在经济中扮演的角色”,因为他们太专注于如何自动化人类了。所以我觉得我们应该更多地思考这个问题。


Brendan Foody:我曾经想过一个角度,那就是理想情况下,模型应该帮助我们逐步搞清楚这些问题——比如人们对什么事情有热情?什么能激励他们?


也许那个事不一定是经济上有价值的,也可能只是某种他们喜欢做的项目。我认为,现在人们还没有充分地思考:人类十年后在经济中的位置到底在哪里。


Elad Gil:你知道,有一件事我曾经真的误解过,或者说没有真正意识到它的规模,


那就是我们实际上在经济的不同领域已经拥有了各种形式的“UBI”(全民基本收入)。政府是一个很明显的例子,推特也是,那里面存在大量浪费、欺诈、流失等等。


如果你看看学术界的部分数据,仅仅看行政机构相对于学生或教职员工的增长;再看看大科技公司,它们的人员规模已经非常庞大。


你会发现很多地方本质上已经成了变相的UBI。


所以从某种程度上来说,可以说我们经济中的部分领域,已经提前进入了你所说的“被取代后的世界”:


高薪职位未必真的那么有生产力。问题是:我们作为社会要不要接受这种状况?如果接受了,那经济剩余从哪里来?


Brendan Foody:是的,这确实很有意思。我认为,随着我们对员工价值的分析能力增强,这些公司将会开始裁员、削减成本,等等。


Elad Gil:你觉得这些eval系统会不会在某一时刻变成非法?


因为在某些行业或领域里,确实出现过类似的情况,比如在政府机构的某些岗位上,70年代开始就取消了基于“绩效/能力”的考试。


我只是好奇,人们会不会因为这些系统暴露了一些残酷的现实,而抗拒它们?还是你觉得,这从经济角度来说是不可阻挡的?


Brendan Foody:一定会有反对声音。但我认为从经济上来说,这是不可避免的,


因为这些东西太难监管了,而且对企业来说价值太大了,他们最终一定会向它靠拢。


Sarah Guo:我觉得要看经济的哪个板块吧,因为有些板块本身就不是以经济效率驱动的。


你看看医疗、教育这些——大家都见过那张图:显示每花一美元,产出提高了多少。在医疗和教育上,投入一直在增加,但产出却没什么改进。


而在其他许多行业里,生产率都在提升。这说明了一个问题:在这些行业里,没有经济压力。


Elad Gil:是的,其实归根结底就是“受监管行业”与“非监管行业”的区别。正是监管导致了这些行业与经济效率之间的脱节。


Brendan Foody:对,而且我还觉得很有意思的一点是:人们总是把AI想象成一个优秀的“独立贡献者”,但实际上它很快可能会变得更擅长当“管理者”。


比如把一个大问题拆解成子问题,判断该如何评估人类的工作表现等等。这也回到了你之前的观点:我们该拿这些“没有生产力的员工”怎么办?


如果我们有一个极度理性、毫不妥协的AI决策者,那么它所作出的管理决策,很可能和我们历史上的决策完全不同。


Sarah Guo:我们公司最近问我:你会期望一个AI助手去做什么是它现在还做不到的?我觉得最大的一点是:我可以给它足够多的上下文和一些目标


——我本身不是一个特别有条理的人,我有很多产出,从某种角度看还不错,但这些产出并没有被优先级排序或测试或排列好,所以我经常卡在某个环节。


我非常希望AI助手能够完全胜任这个工作。


Brendan Foody:这也回到了我们前面说的问题,对吧?


Sarah Guo:“告诉我接下来三小时我该干什么。”


Brendan Foody:我们现在有这些模型,它们在数学方面表现非常好,对吧?你给它出个测试,它能拿满分,但它却仍然无法做好最基本的个人事务管理。


这就说明我们在“如何把模型的能力转化为完整的、经济上有价值的闭环工作”,这件事上,还存在大量研发和产品构建的空间。


也就是说,我们还没能真正把这些能力转化为“你愿意为之支付一名员工薪水”的那种工作交付。


Elad Gil:你觉得模型的能力已经足够了吗?只是缺少工程实现?还是说——我们目前模型的能力确实允许我们去构建agentic系统,只是还差一些配套系统?


Sarah Guo:是啊,而且还要是那些主动型的系统?


Brendan Foody:是的,或者我换一种说法。我认为,只要你有少量不同类别的Agent的eval,基础模型其实已经具备了所有的推理能力。


而你之所以还需要这些eval,是因为模型需要理解:在什么情况下该使用什么工具?它们需要知道如何从这些工具中综合信息。


但这不是一个“推理”问题,更像是一个“学习每家公司的知识库”以及“什么是这个岗位的好表现”的问题。


所以我相信会有一些后训练阶段的调整(post-training),我也非常看好RFT(reinforcement fine-tuning)以及它所带来的一切。


Elad Gil:你能多讲一点RFT并为我们的听众解释一下吗?


Brendan Foody:当然可以。过去大家谈论微调的时候,主要指的是SFT,即监督式微调(Supervised Fine-Tuning),它是通过输入和输出对,让模型从中学习。


但监督式微调存在一个主要问题,那就是数据效率非常低。


企业会创建几百个样本,然后尝试扩展到几万个甚至几十万个SFT数据对,但往往得不到他们真正想要的能力。


而强化微调(Reinforcement Fine-Tuning,简称RFT)则不同,它关注的是你真正关心的“结果”。


比如在Sierra的例子中,我们会跟他们讨论“什么才算是一条好的客户支持回复”;


而在我们的例子中,我们会定义出候选人应具备哪些关键特征,比如他们在面试中是否展现出热情、是否体现了某个领域的知识,


或者是否做过某个展示相关能力的副项目。然后你对模型识别出这些信号给予奖励。在这个环境中,模型就能学习如何表现得更好。


这就是我对它非常乐观的原因,因为它的数据效率非常高。而且它终于让“在应用层面定制模型”这件事变得合理了。


Sarah Guo:你刚才说“数据效率极高”,是说只需要几百或几千个样本?这是一个企业或中型公司可以接受的数量,而不是“十亿个token”这种量级?


Brendan Foody:对,完全正确。所以我觉得这会非常酷。


我们未来会有这些Agent来承担目前由员工执行的各类角色,它们会与人类员工并肩工作,而人类员工也会帮助构建这些evals。


我还认为我们市场上的合同工将在其中发挥重要作用。我们将会看到一个庞大的eval生态系统建设,为了给每家企业定制Agent。


Sarah Guo:那对Mercor来说,接下来一年最重要的事是什么?


Brendan Foody:有两个方向是我们公司一直关注的,我认为这不仅是今年最重要的事情,也会是未来五年的重点。


第一,就是如何把世界上最聪明的人才吸引到我们的平台上。这与我们市场平台的供给端相关,也与类似Uber、Airbnb这种网络效应有关。


因为如果我们拥有最优秀的候选人,那我们就能为他们匹配工作机会,并理解雇主在找什么样的人。第二,就是“工作绩效预测”。


Sarah Guo:你们现在提供的服务中有包含薪资(compensation)以外的内容吗?


Brendan Foody:有的。我们意识到,大多数劳动力市场平台的供需比例大约是50:1,也就是说一个人投了简历,告诉朋友也去投,结果两个都没拿到offer。


这种结构性问题是很多劳动力平台的普遍现象。


所以,如果你想把平台扩展到拥有数亿全球顶尖人才的规模,就必须提供一整套免费的工具,


比如AI模拟面试、AI职业建议、可分享的个人档案页面等,给用户营造一种极具吸引力的使用体验。


这些功能是免费的,因为我们的商业模式在平台另一端有很强的变现能力。所以这是我们非常关注的一个重点。


Sarah Guo:我打断你了,你刚才还要讲另一个重点?


Brendan Foody:是的,另一个重点就是绩效预测。我们会从客户那里获取关于谁在工作中表现好的数据,并分析他们成功的原因。


然后我们就可以基于这些洞察,做出更好的未来招聘决策。这是一个“数据飞轮”(data flywheel),你可以在世界上一些最知名公司里看到类似的机制。


虽然从商业模式表面来看,网络效应更显眼,但我实际上认为,随着我们初步成果的积累,数据飞轮在未来会变得更加重要。


Elad Gil:那你怎么看待长期而言,整个劳动力市场会如何演变?


Brendan Foody:我认为当前劳动力市场最大的低效点就是“碎片化”。比如说,一个候选人可能在世界的某个角落申请了十几份工作;


而旧金山的一家公司,只会考虑全球不到1%的人。这是因为“匹配”过程仍然受限于手工流程,比如需要人工阅读简历、手动进行面试、再决定是否录用。


而当你能够以软件的成本解决这个匹配问题时,就可以促成一个“全球统一的劳动力市场”——每位候选人都能向所有公司申请,每家公司也都可以从全世界招聘。


我相信,这不仅是全球最大的经济机会,也是最有影响力的一项工作——它能帮助每一个人找到他们真正热爱的、也最能成功的工作。


Elad Gil:那这里面也包括AI Agents吗?换句话说,这个市场是由人和Agent混合构成,全球范围内一起竞争工作机会?


Brendan Foody:我认为是的,因为客户最终带着的是一个“待解决的问题”而来,理想的状态是,通过某种协调方式,实现人和Agent的完美匹配。


Sarah Guo:既然你一直在研究如何吸引高技能人才、评估他们的有效性,那你对初创公司和正在扩张的公司有哪些招聘建议?


Brendan Foody:在早期阶段,我要说的是,“人才密度”真的非常关键。在招聘速度与招聘质量之间总是存在权衡。而在早期阶段的员工上,你必须始终偏向质量。


你需要保持耐心,确保你招的人都是非常高水准的。


组织扩大之后,你当然也不能放松标准,但与此同时,大家需要更“数据驱动”地理解什么样的人的特质才能推动你真正关心的结果。


很多问题往往就出在这点上:当招聘变成了一种“靠感觉”的评估方式时,这种方法是很难扩展的。每个招聘经理各自为政,很难统一执行标准。


所以最重要的是要严谨地思考:你的招聘目标是什么?你关心的业务结果要靠哪些人才能实现?这些人的特征是什么?你要怎么衡量这些特征?这真的非常重要。


Elad Gil:我发现几乎每一家伟大的公司,要么擅长招聘,就像你们现在讨论的这样;要么擅长解雇,也就是你们“第二阶段”的内容。


但我觉得通常它们在早期只会把其中一件事做得特别好。我不知道为什么会这样,我猜这可能是一种创始人偏见之类的东西。


然后我感觉随着时间推移,希望他们最终能兼顾两者。比如谷歌就是一个很典型的例子,他们一直以来都很擅长招聘,但却不擅长解雇。


他们花了非常久的时间才把一些人清理出去——真的是好多年。很有意思。


而Facebook的情况正相反,它早期的员工质量是比较混合的,但他们在剔除表现不佳员工这件事上非常果断。所以我一直觉得这是一个很有意思的对照。


而你知道的,这些也就是当年这些公司还只有几十人、几百人的时候,硅谷的传闻。现在当然他们都已经变得非常专业化了,在这方面也有了自己的“UBI”机制。


Sarah Guo:是的。我主要考虑的是工程招聘、市场端招聘和投资相关岗位的招聘,这些职业都有一个特点,就是它们的成果不会在一小时内就能体现出来。


所以我认为你总是在寻找某种“结果的代理指标”,对吧?这种适用于那些“结果需要一段时间才能看出来”的职位。


我觉得这是一个跟eval密切相关的好问题——我们要为这些不同岗位找出哪些有效代理指标?因为这对招聘效率来说是个巨大的加速器。


虽然它并不直接提升解雇效率,但如果你能做参考调查、能安排工程师的试用期,其实在前五天或三十天内你就能知道这个人是否合适了。


完全没错。所以我一直在找这些可以用作代理的信号。


Brendan Foody:我觉得这个市场中很疯狂的一点是:任何你进行试用期评估的候选人,很可能也已经在其他很多旧金山顶级公司试过。


可你却拿不到那些数据,对吧?而且这里还有一些很有意思的数据隐私和中心化的问题——很多公司都希望把这类数据当作自己的专属知识。


但我认为这个市场未来一定会变得越来越高效。


哪怕是关于你没有录用的人的参考信息——理论上,对顶级公司来说,了解其他公司不录用某位候选人的原因,本身也是很有价值的。


Sarah Guo:那你怎么看那些尝试建立“通用评估体系”的公司,比如上一代的Hired那样的公司?它们的理论并不完全错,对吧?


比如说我们应该有一种“统一申请表”或“共享评估系统”的理念,这些想法早就存在了。但它们没能在规模化或质量方面成功。


Brendan Foody:我认为LinkedIn实际上在“应用流程的第一层”做到了集中与聚合,比如这个人做过什么、认识谁。


但历史上的挑战是,交易过程的后续部分并没有办法被集中或自动化。比如说你无法真的把每一次面试都录下来,然后可扩展地对所有人都进行面试;


你也无法把所有这些数据都整理清楚,然后去分析到底是什么因素决定了一个人会表现好。因此我认为这是一个巨大的“为何是现在”(why now)的问题。


而这个“why now”的背后,是因为LMS现在已经变得如此强大,如此快速。


Sarah Guo:这很有道理。我合伙人Mike有一个理论是,LMS能对人类进行“询问”的能力,在不同领域都会非常有用


——而如果能看到这类数据的汇总应用在招聘上,那一定非常有价值。


Brendan Foody:我和我的联合创始人们都是Thiel Fellows(蒂尔奖学金获得者),所以我们非常热衷于思考如何用某种视角去识别出下一个“Thiel Fellow”。


我常常在想——如果你可以让Peter Thiel成为一个“启发式面试官”,去面试全世界每一个18岁的年轻人,那会怎么样?


也许他真的会一个一个地花时间去判断,谁适合做什么工作。我觉得我们离这个世界已经非常近了。


看看这将如何影响劳动力市场、投资市场以及其他所有市场,会非常有意思。


原视频:No Priors Ep. 110 | With Mercor CEO and Co-Founder Brendan Foody


https://www.youtube.com/watch?v=vnkVYLhGd_s


编译:Aurelia Wang


文章来自于微信公众号 “Z Potentials”,作者 :No Priors


深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性

关键词: AI , AI招聘 , Mercor , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner