UPenn提出Graph of Skills：把海量Skill连成技能图

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

8841点击 2026-04-17 09:11

很多人以为，给Agent装上更多Skill，它就会变得更强。

但现实往往正好相反：当Skill库从几十个膨胀到几千、几万个时，Agent最先失去的，往往不是推理能力，而是“找对Skill”的能力。

Agent可能知道自己要做什么，却拿不到那套真正能把任务跑通的完整组合。 把所有Skill全塞进Prompt，Token会迅速爆炸，关键信息会被淹没；只靠向量检索，又常常只能找回几个“看起来相关”的高层Skill，真正决定任务能否执行的解析器、预处理器和依赖项反而会被漏掉。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

UPenn联合马里兰、布朗大学等团队提出的Graph of Skills，正是为了解决这个问题。它的关键不只是让Agent “会组合Skill”，而是先把海量Skill库组织成一张技能图，再让Agent从中找出一套规模足够小、依赖足够全、可以直接执行的Skill组合。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

换句话说，GoS解决的不是“Agent会不会调Skill”，而是一个更现实、也更关键的问题：

当Skill库足够大时，Agent怎么才能一次找对那一套真正能跑通任务的Skill。

项目地址：https://github.com/davidliuk/graph-of-skills

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

现有方案的局限性剖析

在Graph of Skill出现之前，业界处理海量技能库主要依赖两种传统策略。研究者在论文中详细指出了它们的致命缺陷。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

论文将Vanilla Skills、Vector Skills与Graph of Skills并列对照，直观展示了“上下文过载”和“先决条件鸿沟”这两个核心问题，以及GoS如何通过结构化检索补齐依赖链。

全局加载基线（Vanilla Skills）

这是一种最直接的处理方式。

工作机制：将整个技能库的说明文本全部提取出来，直接硬塞进大语言模型的上下文窗口中。
规模诅咒：在工具数量极少时，这种方法可行。但当库规模扩大后，Token成本会呈线性爆炸式增长。
注意力稀释：将数千个工具放入上下文中，会导致模型严重的信息过载。模型极易产生幻觉，并忽略掉隐藏在长文本中的关键领域约束条件。

向量检索（Vector Skills）

为了解决上下文过长的问题，业界引入了基于稠密向量（Dense Retrieval）的检索方案。

工作机制：利用嵌入模型（Embedding Model），检索出与您输入的任务查询在“语义上最相似”的前K个技能。
致命缺陷（先决条件鸿沟）：语义上的极度相似，完全不等于执行上的完备性。
工程现实脱节：在绝大多数工程任务中，与用户查询语义最匹配的，往往是顶层的高级求解器。但是，要让这个求解器成功运行，还需要底层的解析器、格式转换器、环境设置工具或领域特定的预处理器。
检索断链：这些底层依赖项在功能上不可或缺，但在文本语义上与用户的初始查询关联极弱。向量检索往往会遗漏这些底层工具，导致最终检索出的技能组合根本无法执行。

核心突破：技能图谱（GoS）架构详解

为了打破上述困境，研究者提出了一种全新的推理时结构化检索层——Graph of Skills (GoS)。

GoS的核心思想彻底改变了对“技能”的定义：拒绝将Skill视为孤立的文本片段，而是将它们重构为一个有向的、包含依赖关系的执行图谱。 系统目标是在严格的上下文预算内，检索出一个具备依赖感知（Dependency-aware）的、完整的可执行技能包（Skill Bundle）。整个流程分为“离线图谱构建”和“在线结构化检索”两个主要阶段。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

这张总览图把GoS拆成三部分：左侧是离线索引与图谱构建，中间是带类型的技能关系图，右侧是在线检索、反向扩散、重排序与预算约束下的技能实例化。

第一阶段：离线图谱构建

在您实际输入问题之前，GoS需要在离线状态下，将本地的杂乱技能包转化为一个结构化的带类型有向图。

1.技能节点归一化（Skill Normalization）

确定性解析：系统首先会确定性地解析技能包。通过读取YAML前置元数据和Markdown文档，提取出规范名称、功能摘要、输入输出（I/O）字段、领域标签、使用工具、脚本入口以及稳定的本地源码路径。
受限的LLM补全：当某些技能的文档极其残缺时，系统会调用轻量级的大语言模型进行辅助。
严格边界：研究者对LLM的使用施加了极严的限制。LLM仅被允许用于补全节点内部的语义字段（如能力描述、缺失的I/O），绝对不允许它凭空捏造图谱中的连边关系。这种“受限语义补全”保证了节点的质量，同时杜绝了幻觉连边。

2.推导带类型的边（Typed Relation Induction）

GoS并非只有一种连接方式，它构建了四种不同类型的边：

依赖边（Dependency edges）：这是图谱的绝对核心。系统通过严格的输入输出（I/O）兼容性检查来确定有向边。如果技能A产生的输出，刚好是技能B要求的输入，系统就会在两者间建立依赖边。这代表了不可逾越的执行先决条件。
工作流边（Workflow）：捕获常见的多步流水线执行顺序。
语义边（Semantic）：连接极其相似或主题相邻的备用技能。
替代边（Alternative）：连接用于解决同一个子问题的不同实现方案。
稀疏验证机制：为了防止计算量失控，对于后三种非依赖边，系统不会进行全局的两两对比。而是先通过词法和语义相似度框定一个小范围的候选池，随后在候选池内进行关系验证，确保图谱保持稀疏且精准。

第二阶段：在线结构化检索

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

第一步：混合种子检索 (Hybrid Seeding)

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

第二步：逆向感知的图谱扩散 (Reverse-Aware Typed Diffusion)

这是GoS最惊艳的数学与算法设计。为了从匹配到的高层技能“顺藤摸瓜”找到其所需的底层依赖（如预处理器、解析器），GoS必须允许相关性在图中反向传播。 GoS构建了一个统一的转移算子：

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

第三步：预算约束下的重排序与填充 (Budgeted Reranking and Hydration)

扩散结束后，GoS会将图谱的全局结构分数与节点的局部查询匹配度结合进行重排序：

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

最后，系统会根据上下文的硬性预算，按照排名高低对技能进行“实例化”（Hydration），也就是将技能转化为智能体可以直接阅读和使用的载体（包括稳定的本地源码路径、能力摘要和执行注意事项），确保输出不仅紧凑而且立即可执行。

实验设计与数据论证

为了验证上述架构的实际效能，研究者在极具挑战性的基准测试上进行了全面评估。

测试环境与模型基准

SkillsBench基准：包含1000个真实的复杂技术任务，横跨宏观经济去趋势化、电网可行性分析、3D扫描分析、地震相位拾取等11个专业领域。
ALFWorld基准：一个交互式的具身模拟器测试环境。智能体需要通过文本指令，在虚拟家庭环境中完成导航、寻找物体和物理交互等多步家务活动（共140个完整序列）。
模型阵容：实验横跨了三个不同家族的大型语言模型，包括Claude Sonnet 4.5、MiniMax M2.7以及GPT-5.2 Codex。

核心性能对比

实验数据展现了高度一致的结论。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

研究者在SkillsBench与ALFWorld两个基准上，按奖励、Token和运行时对比Vanilla、Vector与GoS三种方法。GoS在六个模型-任务组合中都拿到最高平均奖励，同时维持明显更紧凑的上下文成本。

全面超越全局加载（Vanilla）：在所有的测试区块中，GoS取得了最高的平均任务奖励（即成功率）。与简单粗暴的全局加载相比，GoS在平均奖励提升43.6% 的同时，将模型摄入的输入Token数量大幅减少了37.8%。
碾压向量检索（Vector）：在维持极低Token消耗的前提下，GoS的任务成功率远超向量检索。在SkillsBench测试中，GoS比向量基线高出10.97分；在ALFWorld测试中，高出2.87分。
效率与表现的最佳平衡：全局加载虽然找得到技能，但成本失控且容易导致模型迷失；向量检索虽然省钱，但找出的技能组合残缺不全无法执行。GoS成为了在Token效率、运行时间和任务成功率之间的最佳平衡点。
具体模型数据：在ALFWorld测试中，使用Claude Sonnet 4.5，Vanilla的成功率为89.3%，消耗了1,524,401个Token；Vector向量检索成功率为93.6%，消耗28,407 Tokens；而 GoS达到了97.9% 的惊人成功率，仅消耗27,215 Tokens。

深度消融实验与扩展性分析

研究者并未止步于表面数据，他们进一步解剖了GoS架构，以验证各个组件的真实价值。

应对技能库规模膨胀

研究者测试了技能库从200个飙升至500、1000、2000个时的系统表现（基于GPT-5.2 Codex）。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

这是论文对200、500、1000、2000个技能规模给出的原始结果表。它和下方趋势图相互印证，显示GoS从中等规模开始持续保持更高奖励，而检索式方案都显著压住了Token膨胀。

Token成本失控：当库规模从500扩展到2000时，全局加载基线（Vanilla）的输入Token消耗从193万激增到584万（接近3倍）。
GoS的超强抗压性：在相同的扩张规模下，GoS的Token消耗死死稳定在114万到138万之间。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

论文在200到2000个技能规模上比较三种方法。结果显示，随着技能库变大，GoS依然保持更强的奖励表现，同时显著抑制了输入Token的增长速度。

规模越大，优势越显：在200个技能的小型库中，全局加载还能勉强维持微弱优势。但只要技能库规模达到中等（500及以上），GoS的任务成功率便全面且持续地超越其他两种基线。

核心组件缺失测试

研究者在拥有1000个技能的库中，逐步拆除了GoS的核心组件，观察系统衰退情况：

移除图谱传播机制：系统退化为无法沿着结构关系寻找先决条件的单纯检索器。结果显示，Token消耗虽然降低了，但平均任务奖励从34.4暴跌至29.3（下降5.1分）。
进一步移除词法重排与检索：强制系统仅依赖单一的语义检索器进行初步筛选。任务奖励进一步崩塌至26.7（下降7.7分）。
数据结论：混合语义与词法检索提供了高质量的“初始切入点”，而图谱传播机制则负责将这些切入点转化为“逻辑完备的执行链条”。两者缺一不可。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

组件消融实验显示，只去掉图传播，奖励就从34.4降到29.3；再去掉词法检索与重排，进一步降到26.7，说明高质量种子和结构扩散在GoS中是互补关系。

真实轨迹定性分析

为了让系统表现更直观，研究者提取了多个真实的智能体执行轨迹（Trajectories）进行解剖。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

附录把10个qualitative cases中真正进入执行链条的技能包并排列出，并区分Useful与Noisy。这个总表能直接看出GoS往往给出更紧凑、更接近可执行分解的组合Skill。

行人交通计数（视觉流水线任务）

任务需求：提取视频帧、进行行人计数、格式化输出。
向量检索表现：抓取了零散的上下文，智能体无法将其组装成工作流，任务失败（得分0.041）。
全局加载表现：经过漫长的搜索找到了相关工具，但过程充满噪音，获得部分分数（得分0.267）。
GoS表现：开局直接抛出一个紧凑的视觉流水线组合（包含视频帧提取、模型计数、视觉处理工具），智能体直接执行完美通关（得分0.417）。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

这是 pedestrian-traffic-counting 的原文分析截图。研究者把GoS、Vanilla与Vector三种条件下的技能暴露方式并列对照，强调GoS的优势在于更早给出紧凑可执行的视觉流水线。

网络入侵检测（深度分析任务）

任务需求：需要极度专业的PCAP数据包分析工具。
案例对比：向量检索彻底迷失，抓取了一堆不相关的自动化脚本。GoS凭借图谱关系，精准打包了核心的 pcap-analysis 工具及其配套的分流助手。只要关键分析包没有被遗漏，后续任务便迎刃而解。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

这是 dapt-intrusion-detection 案例的截图。论文把它作为典型的GoS正向案例，用来说明一旦检索链里出现 pcap-analysis 及相邻助手，任务性质就会从“从零摸索”转成“按现成工具复用”。

反思案例：地震相位关联（超长依赖任务）
真实局限：在这个任务中，全局加载基线虽然笨重，但依靠蛮力拼凑出了一个包含5个工具的地震处理栈，成功过关。而GoS检索出的依赖关系链缺了一环，混入了一个无关技能，导致任务彻底失败。
案例启示：这诚实地暴露了架构的边界。结构化检索能够发挥作用的前提，是图谱恢复的局部邻域必须足够完整。如果图谱本身的覆盖面存在断层，检索出的技能包依然无法执行。

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7

earthquake-phase-association 是论文专门保留的反例。研究者借此说明结构化检索不是自动成功，若恢复出的局部邻域仍然缺关键依赖，GoS依然可能输给信息更全但更嘈杂的全量加载。

局限性

尽管在处理海量技能库方面展现出极强的统治力，研究者依然客观地指出了GoS当前的局限性：

深度绑定离线图谱质量：如果初始技能库的代码文档极其混乱，I/O模式完全不清晰，或者缺失执行元数据，离线阶段建立的边质量就会大幅下降，这将直接摧毁后续的所有检索流程。
图谱结构的静态滞后：目前的图谱系统主要依靠离线构建，是静态的。系统尚未具备“吃一堑长一智”的能力，无法根据智能体在线执行的成功轨迹、验证器的报错记录或用户的直接反馈，去实时动态更新图中的连边权重。

研究者表示，未来的探索方向将集中于实现在线边权重的自适应更新、基于成功执行轨迹的图谱进化、对候选技能包进行更强力的重排序，以及在多模态和更具交互性的智能体环境中进行广泛测试。

结语

Graph of Skills (GoS) 为我们揭示了一个关键事实：面对庞大的工具生态，单独考察工具的文本语义是远远不够的。技能之间天然存在着复杂的依赖、工作流和先后逻辑。

通过将零散的技能转化为可被算法遍历的有向图谱，结合混合检索与逆向扩散机制，GoS在保证极低算力成本（Token消耗）的同时，向大模型提供了一套开箱即用的执行逻辑闭环。这为突破下一代超大规模智能体系统的检索瓶颈，提供了一套极具工程价值和理论深度的解决方案。

文章来自于“AI修猫Prompt”，作者“AI修猫Prompt”。

关键词: AI新闻 , Graph of Skills , skill , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

UPenn提出Graph of Skills：把海量Skill连成技能图 ｜CC可用、支持Minimax2.7

现有方案的局限性剖析

全局加载基线（Vanilla Skills）

向量检索（Vector Skills）

核心突破：技能图谱（GoS）架构详解

第一阶段：离线图谱构建

第二阶段：在线结构化检索

第一步：混合种子检索 (Hybrid Seeding)

第二步：逆向感知的图谱扩散 (Reverse-Aware Typed Diffusion)

第三步：预算约束下的重排序与填充 (Budgeted Reranking and Hydration)

实验设计与数据论证

测试环境与模型基准

核心性能对比

深度消融实验与扩展性分析

应对技能库规模膨胀

核心组件缺失测试

真实轨迹定性分析

行人交通计数（视觉流水线任务）

网络入侵检测（深度分析任务）

局限性

结语

UPenn提出Graph of Skills：把海量Skill连成技能图｜CC可用、支持Minimax2.7