AI Agents(智能体)也有自己的“摩尔定律”了?!
就在最近,Nature报道了一项来自非营利研究机构METR的最新发现:
AI在完成长期任务方面的进步速度惊人,其时间跨度大约每七个月翻一番。
为了衡量Agent自动完成任务的能力变化,研究人员提出了“50%-任务完成时间跨度(50%-task-completion time horizon)”这一指标。
他们以50%任务成功率为基准,假设2019年AI达到这一目标所需时间对应人类需要的时间为10分钟,那么7个月后,其对应的人类完成任务时间则变成了20分钟。
换句话说,AI能够胜任越来越多人工耗时久的任务,能力逐渐更强。
2024年这一增长速度变得更快了,一些最新模型大约每三个月翻一番。
按照预测,大约五年后,AI就能自动完成很多人类现在要花一个月才能完成的任务。
网友们纷纷表示,这下终于对AI进步神速有实感了!
在METR的介绍中,他们将这一发现命名为“Moore’s Law for AI agents”,也就是“智能体摩尔定律”。
下面我们详细展开其研究方法。
整体而言,他们主要是让AI和一些专业人员在相似条件下尝试完成任务,然后测量人类所需要的时间,最终来比较AI成功率如何随着人类完成时间的长短而变化。
这第一步,研究团队选择了三个不同的任务套件来评估AI模型的能力:
接下来,为了量化评估AI模型的表现,团队招募了800多名软件工程、机器学习和网络安全领域的专业人员执行任务,并记录他们完成任务所需的时间。
据METR介绍,在这些任务中,人类完成时间从1秒到16小时不等。
这些时间被当作衡量任务难度的标准。
然后他们又评估了从2019年到2025年发布的13个前沿AI模型,包括GPT系列和o1、Sonnet 3.7等,通过在构建的任务套件上运行这些模型,并记录它们完成任务的成功率。
关键来了,随后他们引入了一个新的指标——50%任务完成时间跨度(50%-task-completion time horizon),即AI模型在50%的成功率下能够完成的任务的平均时间长度。
之所以选择50%这一成功率,主要是它对于数据分布的微小变化最为稳健。
简单说,当数据的分布(即数据的特征、比例或趋势等)发生一些小的变化时,这个指标不会受到太大的影响,仍然能够保持相对稳定的表现。
论文作者之一Lawrence Chan表示:
如果你选择非常低或非常高的阈值,那么分别移除或增加一个成功或失败的任务,就会对你的估计值产生很大的影响。
利用这一指标,团队通过对AI模型在各个任务上的成功与失败数据进行逻辑回归分析,计算出每个模型的时间跨度,也就是模型完成任务成功率达到50%之时,对应的人类完成任务的时间。
(每个模型在每个任务上运行8次,记录成功率)
有了这些数据,团队最终绘制了模型自主性随时间呈指数变化的图表。
如上图所示,研究的主要发现是:
自2019年以来,AI模型的时间跨度呈现出指数级增长,每七个月左右翻一番。
为了验证研究结果的外部有效性,他们又进行了以下四个实验:
1、用2023-2025年数据回溯预测,验证趋势一致性;
2、对HCAST和RE-Bench任务基于16个 “混乱” 因素评级,分析任务混乱程度对模型性能的影响;
3、在其他SWE-bench Verified数据集上应用相同方法,对比结果;
4、在内部Pull Requests(PR)任务上测试模型性能,与人类基线对比。
最终,这一趋势得到了以上外部验证。
比如在第2个实验中,所谓的16个 “混乱(messy)” 因素是指现实任务比研究任务更难的方面,包括任务是否受到有限资源的限制、是否涉及实时协调或是否源自现实世界的环境。
每个任务都根据这些因素得到了一个 “混乱度(messiness score)” 分数。
研究人员发现,尽管AI模型在更加混乱的任务上(比如缺乏明确提示和反馈、需要AI主动去获取信息、任务条件和要求比较模糊等情况)的绝对性能较低,但另一方面其性能在稳步提升。
更有意思的是,不管任务的“混乱”程度如何,AI都是以相似的速度在提升。
再比如在SWE-bench Verified基准上的验证,他们也观察到了一个类似的指数级增长趋势。
不过由于标注时间的问题,该基准测试的时间跨度翻倍时间更短。
总之,按照“智能体摩尔定律”进行预测,AI可能在2028年11月达到一个月的任务时间跨度;而在较为保守的估计下,这一目标可能在2031年2月实现。
METR团队认为,虽然研究还存在任务套件具有局限性、评估指标不完美、未来AI发展具有不确定性等需要完善的地方,但很确信这一指标每年有1~4倍的增长趋势。
而结合现实中Manus智能体的走红,我们已经能够预见到智能体将迎来爆发。
论文:
https://arxiv.org/pdf/2503.14499
参考链接:
[1]https://www.nature.com/articles/d41586-025-00831-8
[2]https://x.com/METR_Evals/status/1902384481111322929
文章来自公众号 “ 量子位 ”,作者 一水
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md