很多人以为,给Agent装上更多Skill,它就会变得更强。
但现实往往正好相反:当Skill库从几十个膨胀到几千、几万个时,Agent最先失去的,往往不是推理能力,而是“找对Skill”的能力。
Agent可能知道自己要做什么,却拿不到那套真正能把任务跑通的完整组合。 把所有Skill全塞进Prompt,Token会迅速爆炸,关键信息会被淹没;只靠向量检索,又常常只能找回几个“看起来相关”的高层Skill,真正决定任务能否执行的解析器、预处理器和依赖项反而会被漏掉。

UPenn联合马里兰、布朗大学等团队提出的Graph of Skills,正是为了解决这个问题。 它的关键不只是让Agent “会组合Skill”,而是先把海量Skill库组织成一张技能图,再让Agent从中找出一套规模足够小、依赖足够全、可以直接执行的Skill组合。

换句话说,GoS解决的不是“Agent会不会调Skill”,而是一个更现实、也更关键的问题:
当Skill库足够大时,Agent怎么才能一次找对那一套真正能跑通任务的Skill。
项目地址:https://github.com/davidliuk/graph-of-skills

在Graph of Skill出现之前,业界处理海量技能库主要依赖两种传统策略。研究者在论文中详细指出了它们的致命缺陷。

论文将Vanilla Skills、Vector Skills与Graph of Skills并列对照,直观展示了“上下文过载”和“先决条件鸿沟”这两个核心问题,以及GoS如何通过结构化检索补齐依赖链。
这是一种最直接的处理方式。
为了解决上下文过长的问题,业界引入了基于稠密向量(Dense Retrieval)的检索方案。
为了打破上述困境,研究者提出了一种全新的推理时结构化检索层——Graph of Skills (GoS)。
GoS的核心思想彻底改变了对“技能”的定义:拒绝将Skill视为孤立的文本片段,而是将它们重构为一个有向的、包含依赖关系的执行图谱。 系统目标是在严格的上下文预算内,检索出一个具备依赖感知(Dependency-aware)的、完整的可执行技能包(Skill Bundle)。整个流程分为“离线图谱构建”和“在线结构化检索”两个主要阶段。

这张总览图把GoS拆成三部分:左侧是离线索引与图谱构建,中间是带类型的技能关系图,右侧是在线检索、反向扩散、重排序与预算约束下的技能实例化。
在您实际输入问题之前,GoS需要在离线状态下,将本地的杂乱技能包转化为一个结构化的带类型有向图。
1.技能节点归一化(Skill Normalization)
2.推导带类型的边(Typed Relation Induction)
GoS并非只有一种连接方式,它构建了四种不同类型的边:


这是GoS最惊艳的数学与算法设计。为了从匹配到的高层技能“顺藤摸瓜”找到其所需的底层依赖(如预处理器、解析器),GoS必须允许相关性在图中反向传播。 GoS构建了一个统一的转移算子:

扩散结束后,GoS会将图谱的全局结构分数与节点的局部查询匹配度结合进行重排序:

最后,系统会根据上下文的硬性预算,按照排名高低对技能进行“实例化”(Hydration),也就是将技能转化为智能体可以直接阅读和使用的载体(包括稳定的本地源码路径、能力摘要和执行注意事项),确保输出不仅紧凑而且立即可执行。
为了验证上述架构的实际效能,研究者在极具挑战性的基准测试上进行了全面评估。
实验数据展现了高度一致的结论。

研究者在SkillsBench与ALFWorld两个基准上,按奖励、Token和运行时对比Vanilla、Vector与GoS三种方法。GoS在六个模型-任务组合中都拿到最高平均奖励,同时维持明显更紧凑的上下文成本。
研究者并未止步于表面数据,他们进一步解剖了GoS架构,以验证各个组件的真实价值。
研究者测试了技能库从200个飙升至500、1000、2000个时的系统表现(基于GPT-5.2 Codex)。

这是论文对200、500、1000、2000个技能规模给出的原始结果表。它和下方趋势图相互印证,显示GoS从中等规模开始持续保持更高奖励,而检索式方案都显著压住了Token膨胀。

论文在200到2000个技能规模上比较三种方法。结果显示,随着技能库变大,GoS依然保持更强的奖励表现,同时显著抑制了输入Token的增长速度。
研究者在拥有1000个技能的库中,逐步拆除了GoS的核心组件,观察系统衰退情况:

组件消融实验显示,只去掉图传播,奖励就从34.4降到29.3;再去掉词法检索与重排,进一步降到26.7,说明高质量种子和结构扩散在GoS中是互补关系。
为了让系统表现更直观,研究者提取了多个真实的智能体执行轨迹(Trajectories)进行解剖。

附录把10个qualitative cases中真正进入执行链条的技能包并排列出,并区分Useful与Noisy。这个总表能直接看出GoS往往给出更紧凑、更接近可执行分解的组合Skill。

这是 pedestrian-traffic-counting 的原文分析截图。研究者把GoS、Vanilla与Vector三种条件下的技能暴露方式并列对照,强调GoS的优势在于更早给出紧凑可执行的视觉流水线。
pcap-analysis 工具及其配套的分流助手。只要关键分析包没有被遗漏,后续任务便迎刃而解。

这是 dapt-intrusion-detection 案例的截图。论文把它作为典型的GoS正向案例,用来说明一旦检索链里出现 pcap-analysis 及相邻助手,任务性质就会从“从零摸索”转成“按现成工具复用”。

earthquake-phase-association 是论文专门保留的反例。研究者借此说明结构化检索不是自动成功,若恢复出的局部邻域仍然缺关键依赖,GoS依然可能输给信息更全但更嘈杂的全量加载。
尽管在处理海量技能库方面展现出极强的统治力,研究者依然客观地指出了GoS当前的局限性:
研究者表示,未来的探索方向将集中于实现在线边权重的自适应更新、基于成功执行轨迹的图谱进化、对候选技能包进行更强力的重排序,以及在多模态和更具交互性的智能体环境中进行广泛测试。
Graph of Skills (GoS) 为我们揭示了一个关键事实:面对庞大的工具生态,单独考察工具的文本语义是远远不够的。技能之间天然存在着复杂的依赖、工作流和先后逻辑。
通过将零散的技能转化为可被算法遍历的有向图谱,结合混合检索与逆向扩散机制,GoS在保证极低算力成本(Token消耗)的同时,向大模型提供了一套开箱即用的执行逻辑闭环。这为突破下一代超大规模智能体系统的检索瓶颈,提供了一套极具工程价值和理论深度的解决方案。
文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0