垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效
5400点击    2026-03-24 10:15

您用OpenClaw或CC时有没有这样的感受?Skill越装越多,Agent解决问题的能力却没有越变越强。仓库里堆满了技能包:有些只修过一次特定报错,有些和已有技能高度重复,有些描述又长又空,真正调用时既占上下文又拉低判断效率。Skill库看起来越来越丰富,实际上却越来越像一个无治理的垃圾场。


修猫今天要为您介绍的项目EvoSkill,切中的正是这个被很多人忽视的问题:Agent真正缺的,不只是更多Skill,而是一套能自动淘汰垃圾Skill、保留有效Skill、并持续压缩能力冗余的演化机制。 EvoSkill的方法不是继续手工往库里塞新技能,也不是去微调模型权重,而是让系统从执行失败里自动发现能力缺口,决定应该新增一个skill,还是回头修改已有skill,然后把候选结果放进一个固定容量的前沿集合里竞争,只有那些能提升独立验证集表现的候选,才有资格留下来。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


换句话说,EvoSkill的价值不只是“自动长技能”,而是让Skill库在持续进化中维持克制:没用的不要,重复的别造,应该合并的就编辑旧技能,只有真正提升能力上限的模块,才配占住上下文和调用入口。对于正在把Agent Skill库越堆越臃肿的人来说,这篇论文最有意思的地方,不是它又发现了几个新skill,而是它提出了一种更像工程治理的思路:让Skill的增长服从选择压力,而不是服从人的囤积冲动。项目地址:https://github.com/sentient-agi/EvoSkill


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


EvoSkill:三智能体协同和文本反馈下降


EvoSkill的底层设计逻辑是“文本反馈下降”(Textual feedback descent)机制的具象化。整个框架由三个具有明确权限边界和功能分工的子智能体协同运行:


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


  • 执行者智能体(Executor Agent, A):负责在当前智能体程序的配置和技能库边界内执行具体的测试任务。在初始状态(Base program)下,执行者被实例化为一个没有任何外挂技能的纯净代码智能体。
  • 提议者智能体(Proposer Agent, P):框架的诊断大脑。它负责摄取执行者的运行轨迹(Execution traces)、预测输出以及该任务的标准答案(Ground-truth)。向其提供标准答案是为了进行深度的根本原因诊断,这类似于在监督学习中检查分类错误的样本特征,但这些标准答案绝对不会被泄露或硬编码到最终生成的技能代码中。提议者基于这些上下文,决定是需要无中生有地创建一个全新的技能(Create),还是对现有的某个技能进行逻辑修补(Edit)。
  • 技能构建者智能体(Skill-Builder Agent, S):负责将提议者输出的高层语义提案,物理具象化为符合规范的、可执行的技能文件夹。一个标准的技能文件夹通常包含触发元数据、过程指令(SKILL.md)、以及可选的辅助执行脚本(如Python或TypeScript代码)。为了保证输出质量,技能构建者在初始化时会被注入一个“元技能”(Meta-skill),其中硬编码了关于如何编写符合当前系统规范的技能的最佳实践。


在权限控制方面,所有三个智能体都对基础程序的代码仓库具有只读(Read)权限,但只有技能构建者(Skill-Builder)被授予对 skills/ 目录的写入(Write)权限。


演化循环(EvoSkill Loop)的算法细节


EvoSkill将智能体的每一次状态快照定义为一个“程序 P ”,它封装了当前状态下的系统提示词和累积的技能树。系统会在内存中维护一个具有固定容量 k 的帕累托前沿集合 G,其中存储了当前得分最高的 k 个程序变体。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


  1. 父代选择与执行:在第 次迭代中,系统通过轮询(Round-robin)机制从前沿集合 G 中选取一个父代程序 P,确保所有位于前沿的优秀变体都能获得均匀的繁衍机会。
  2. 失败样本捕获:父代程序被置于一个无放回抽样的训练批次中执行任务。系统将程序的输出与标准答案进行比对评分。任何低于预设容差阈值的样本都会被强制收集并压入一个失败集合 F。如果该批次全部通过,则直接跳过当前迭代轮次。
  3. 诊断与提案:提议者 P 接收失败集合 F 和全局反馈历史 H(包含了所有历史提案的文本、最终结果和得分增量差值)。历史记录 的存在是为了打破“失忆”:它防止提议者在后续轮次中重复提出已经被证明无效的方案,并帮助其在已有部分成效的策略上继续微调。提议者完成执行轨迹审查和现有技能审计后,输出一份结构化的变更提案 𝝅
  4. 构建与准入测试:技能构建者 S根据提案𝝅和父代P的状态,编译出候选程序平均值P(即挂载了新技能或修改后技能的分支版本)。随后,P必须在一个被严格隔离的验证集V上进行跑分。
  5. 前沿更新机制:只有当候选程序 P在验证集上的得分严格大于前沿集合G中得分最低(最弱)的成员时,它才被允许进入G,并将那个最弱的成员剔除出局。无论准入测试成功与否,本次提案的具体文本、跑分结果以及是否入选的布尔值都会被追加到历史记录H中,闭环整个反馈链路。经过T次最大迭代后,系统返回G中得分最高的程序作为最终产物。


工程实现:基于Git树的管理与数据分层


为了保证演化过程中环境的绝对纯净和不同程序分支之间的物理隔离,研究者在底层架构上做出了精妙的工程设计。


版本控制与状态隔离


EvoSkill运行在一个代码库被锁死的Git仓库环境中。每一个演化出的智能体程序都被具象化为一个独立的Git分支。


  • 每个程序分支的根目录下包含一个 .claude/program.yaml 配置文件,其中序列化了该程序的唯一标识、父分支指针、代际深度(即距离初代节点的变异步数)、当前系统提示词、允许调用的工具集列表以及验证集得分等元数据。
  • 任何子程序都只在技能文件夹(skills/)和上述元数据上与其父分支产生文件级差异。
  • 前沿集合中的程序通过特定的Git标签(例如前缀为 frontier/ 的Tag)进行实时追踪。
  • 当系统实例化一个子代程序时,它会执行 git checkout 检出父代分支,创建一个名为 iter-mode-n为全局迭代索引)的新分支,写入变异后的文件,然后生成一次Commit。
  • 这种极度轻量级的状态管理方式确保了程序间性能的差异被100% 归因于技能目录的变更,排除了任何环境污染变量。未被接纳进前沿的候选分支会被立刻执行 git branch -D 物理删除,以避免仓库体积随时间无限膨胀。


数据分层与类别感知采样


在数据流转层面,研究者首先利用LLM作为分类器,将原始数据集 D 聚类为 K 个不同的语义类别。随后执行严格的分层划分(Stratified partitioning),将数据集切割为三个物理隔离的子集:


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


  • 训练集:用于在演化循环中暴露失败案例,触发提议者的动作。训练数据被组织为以类别为键的内存池(Category-keyed pools),以支持演化过程中的类别感知均匀采样。
  • 验证集:用于对生成的候选程序进行无情淘汰的跑分集。划分逻辑强制保证每个聚类类别在训练集和验证集中都至少有一个代表样本。
  • 测试集:完全屏蔽在演化循环之外,仅用于最终系统收敛后的盲测评估。


实验结果与零样本迁移验证


研究者在具有极高技术壁垒的特定基准测试上部署了EvoSkill(底层引擎选用Claude Code与Opus 4.5模型),以验证框架的有效性。


挑战一:OfficeQA(高密度结构化文档推理)


OfficeQA是一个极具挑战性的落地推理基准,其语料库包含跨越50年、总计约89,000页的美国财政部公报。其任务不仅要求系统在海量的散文、复杂表格和图表中定位信息,还需要执行跨文档(平均需关联两份文档)的数值提取和定量计算。人类专家解答此类问题平均需要耗费50分钟。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


在此环境下,研究者采用了严苛的模糊匹配评分函数,在绝对零容差(0.00% Tolerance,即精确匹配)标准下进行测试。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


  • 初始的基础大模型代理准确率为60.6%。
  • 在使用仅仅5%(12个样本)的训练集切片进行1.5个Epoch的演化后,准确率攀升至63.4%。
  • 当训练数据比例增加到10% 时,准确率达到65.8%。
  • 研究者还设计了一种极具极客精神的技能合并(Skill-merge)配置:将多次独立演化运行中发现的非重复技能进行物理合并,如果出现命名空间冲突,则保留高分分支的版本。在合并配置下,系统在零容差标准下取得了67.9%的准确率,相较于基准线实现了7.3%的净增长


挑战二:SealQA(对抗性噪声网络搜索)


与依赖静态文档的OfficeQA不同,SealQA是一个测试智能体在网络搜索返回相互冲突、存在大量噪声或无用结果时,寻求事实真相能力的基准测试。这要求智能体放弃文档解析能力,转而演化出具有对抗意识的搜索策略和信息源交叉验证能力。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


在SealQA (seal-0划分) 上运行EvoSkill,仅使用10%的训练集,智能体的测试准确率从26.6% 跃升至38.7%,实现了12.1%的巨幅绝对增益


挑战三:零样本跨任务技能迁移(Zero-Shot Skill Transfer)


检验一个生成的技能是否陷入了过拟合(Overfitting)的终极标准,在于它能否被无缝移植到一个完全陌生的环境中并发挥作用。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


研究者将由于SealQA失败案例演化出来的核心技能search-persistence-protocol(搜索持久性协议),在不做任何一行代码和文本修改的情况下,直接拷贝到了执行BrowseComp基准测试(一个要求浏览器智能体寻找简短且唯一正确答案的测试)的智能体工作区中。结果显示,这个外来的技能将BrowseComp上的随机抽样准确率从43.5% 提升到了48.8%(+5.3%)。这证明了在“技能”这一较高抽象层级上进行的演化优化,天然捕获了例如“在下结论前进行穷尽式检索”这种具备高泛化性的通用范式,而非对特定训练样本集的死记硬背。


演化技能的代码与逻辑解剖


为了消除“模型产生的只是黑盒”的偏见,我们需要深入到底层目录,剖析EvoSkill生成的技能究竟长什么样。研究者证明了EvoSkill发现的是具有极高可解释性、直击失败痛点的领域技能。


案例一:经济时间序列分析流水线(OfficeQA产物)


针对复杂的财政数据计算,EvoSkill生成了一个名为 economic-timeseries-analysis 的复合技能。它不仅包含指导文档 SKILL.md,还内联生成了一个完备的Python脚本 scripts/analysis.py


在 SKILL.md 中,该技能定义了极为严苛的四步工作流规范:


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


  1. 数据收集与结构化:强制要求智能体将收集到的名义价值、CPI消费价格指数以及基准期,以固定的JSON结构体格式化。
  2. 通胀调整公式注入:硬编码了计算公式 Real Value = Nominal Value * (CPI_base / CPI_current),并提供了防痴呆的数值示例。
  3. 调用外部计算图:指令明确规定智能体禁止自行计算线性回归,必须将格式化的JSON通过Bash管道喂给生成的辅助脚本:python scripts/analyze_timeseries.py input.json
  4. 格式化输出:要求将结果严格按照 [slope, intercept] 保留两位小数输出,例如 [44.00, 231.52]


而在其生成的 scripts/analysis.py 源码中,我们可以看到非常健壮的工程化代码。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


脚本包含了完整的数据防呆校验机制(validate_data 函数拦截缺失的键值),隔离的通胀调整函数(adjust_for_inflation)不仅实现了核心数学逻辑,还包含了针对缺失数据抛出异常的防御性编程 raise ValueError(f"CPI not found..."),最后通过 linear_regression 函数实现最小二乘法计算,并通过 json.dumps 提供标准化的终端回显。这说明演化系统完全具备生成生产级脚本来分担LLM自身脆弱数学计算能力的做法。


案例二:搜索持久性协议(SealQA产物)


在面对需要高强度信息检索的任务时,智能体最常见的死因是由于检索到部分信息就过早停止探索。EvoSkill为此生成了纯规则逻辑的 search-persistence-protocol


该技能在 SKILL.md 中制定了四项近乎残酷的操作铁律:


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


  • 规则1:术语解释扩展(Term Interpretation Expansion):遇到歧义词汇前,强制穷举所有合理分支。例如技能文档中举例,遇到“Agency”必须先发散为政府机构、太空机构、新闻机构等,并要求智能体对每一条分支独立发起检索网络请求。
  • 规则2:三源最小化验证(Three-Source Minimum):在断言任何事实之前,必须通过至少三个独立域名/数据源进行交叉比对。如果只找到1-2个,强制更换查询表述重试。
  • 规则3:无法找到协议("Unable to Find" Protocol):这是最经典的一环。在向用户回复“找不到”之前,必须至少尝试3种重述、进行衍生计算(例如:若96% 有X,则推导4% 没有X),最关键的是数据源跟进原则——如果发现目标数据可能存在于某个API或数据库链接中,智能体必须尝试编写代码发起网络抓取操作,严禁出现“您可以去查询某某网站”的甩锅式反模式(Anti-pattern)。


EvoSkill提示词设计解析


EvoSkill框架之所以能够生成上述高精度的代码与规则,其核心在于对提议者智能体(Proposer)实施了极其深度的提示词工程控制。


提议者的系统提示词强制其在提出任何新提案之前,必须走一套严格的标准化分析协议:


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


  1. 强制性头脑风暴:必须调用预置的 Brainstorming 技能,就执行轨迹中的失败点产出2-3个具备差异化思路的修复方案,并对每个方案权衡复杂度,遵循YAGNI(You Aren't Gonna Need It)原则,选择最轻量级的闭环路径。
  2. 防撞车与防失忆机制:系统指令要求必须审计现存的技能列表,并查阅全局反馈历史中那些被丢弃(DISCARDED)的旧提案。如果当前想法与被毙掉的方案雷同,必须书面论证本次方案的差异性。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


3.反模式约束:明确列出“不要为解决单一特定的失败案例而创建极度狭隘的技能,要保证广泛适用性”、“不要创建与现有技能重叠的能力,应该选择去编辑原文件”等高压线规则。


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


垃圾Skill太多,有用的少?试试EvoSkill,用帕累托前沿让你的Skill库始终极简与高效


总结


EvoSkill证明了,与其让大模型在庞杂的源代码堆里像没头苍蝇一样盲目变异,不如给它一个冷酷的帕累托前沿,逼迫它把对错误的理解固化为结构化的操作协议 。研究者明确表示,未来的工作将深入探究技能在不同任务环境和底层模型之间的可迁移性,并将探索触角延伸至视觉与代码交互等多模态场景 。对于站在架构设计一线的各位而言,EvoSkill实质上提供了一套极具参考价值的系统防腐层设计思路。当底座模型仍在快速迭代、业务场景无限发散时,这种能够自我提纯、自我进化的外部能力层,才是真正能够穿越周期、长期保值的核心技术资产。


文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0