谷歌突然开源Agent OKF新标准！Karpathy力推的AI知识库终于有了通用格式了

8249点击 2026-06-18 11:27

谷歌今天发布了一个叫 Open Knowledge Format（OKF）的开放规范。

它要解决的问题，几乎每一个做 AI agent 的团队都踩过：模型本身越来越强，但它需要的上下文知识，散落在各种地方，没有人整理，也没有格式通用。

开源地址：

https://github.com/GoogleCloudPlatform/knowledge-catalog/tree/main/okf

AI 能力越强，知识碎片化越致命

一家公司里，AI agent 需要用到的知识大多数是内部知识：某张数据表的字段含义、某个指标的业务定义、某个系统的接入路径、某个 API 的废弃通知。

这些东西现在住在哪？

到处都是。元数据目录、内部 Wiki、共享文档、代码注释、资深工程师的脑子里。每个系统有自己的 API，每个平台有自己的数据模型，互不兼容，互不流通。

结果就是：每个搭 agent 的团队，都在从头解决同一个问题——怎么把这些散的知识拼起来喂给模型。每家厂商都在重新发明同一套数据结构，而知识本身被锁死在创建它的那个平台里，出不来。

开发者已经摸索出了解法，但各做各的

过去一年，一个模式在开发者中悄悄流行起来：用 Markdown 文件给 AI agent 建一个知识库，让 agent 自己去读、去更新。

这个思路被 AI 研究者 Andrej Karpathy 表达得最清楚：LLM 不会感到无聊，不会忘记更新交叉引用，一次可以同时改 15 个文件。人类维护个人 Wiki 最终放弃，往往就是败在这些琐碎的更新工作上，而这恰恰是 LLM 最擅长的。

这个模式以不同的名字反复出现：接入编程 agent 的 Obsidian 知识库、AGENTS.md 和 CLAUDE.md 这类约定文件、数据团队用来当代码管理的元数据仓库。

但问题在于：每家做法都是定制的。Karpathy 的 Wiki 和你团队的 Wiki 和某家厂商导出的目录，长得像（都是 Markdown、都有 frontmatter、都有交叉链接），但它们并没有被设计成可以互通的。没有人约定每个文档应该有哪些字段，也没有人约定文件名代表什么含义。

知识还是被锁在各自的团队里，每次搭新 agent 都得重新造轮子。

OKF 给的答案：一个格式，不是又一个平台

谷歌今天发布的 OKF，是一个格式规范，不是服务，不需要 SDK，不绑定任何云平台。

核心设计很简单：一个 OKF bundle 就是一个 Markdown 文件目录，每个文件代表一个概念（可以是数据表、数据集、指标、操作手册、API 等），文件路径就是这个概念的唯一标识。

目录结构长这样：

sales/

├── index.md

├── datasets/

│ └── orders_db.md

├── tables/

│ ├── orders.md

│ └── customers.md

└── metrics/

└── weekly_active_users.md

每个文件有两个部分：顶部一小块 YAML frontmatter，用于存储可以被查询的结构化字段，下面是 Markdown 正文，写什么内容完全自由。

一个完整的概念文件长这样：

---

type: BigQuery Table

title: Orders

description: One row per completed customer order.

resource: https://console.cloud.google.com/bigquery?p=acme&d=sales&t=orders

tags: [sales, revenue]

timestamp: 2026-05-28T14:30:00Z

---

# Schema

| Column | Type | Description |

|---------------|-----------|------------------------------------------|

| `order_id` | STRING | Globally unique order identifier. |

| `customer_id` | STRING | FK to [customers](/tables/customers.md). |

# Joins

Joined with [customers](/tables/customers.md) on `customer_id`.

概念之间用普通的 Markdown 链接互相引用，整个目录就变成了一张关系图，比文件系统的父子层级丰富得多。

整个 v0.1 规范，一页纸能写完。

三个设计原则，缺一不可

最小约束。 OKF 对每个文件只强制要求一件事：必须有 type 字段。其他字段、文件体的内容和结构，全由使用者决定。规范管的是互通的边界，不是内容本身。

生产者和消费者彼此独立。 人手写的知识文件，可以被 AI agent 读取。元数据导出流水线生成的 bundle，可以在可视化工具里浏览。一个 LLM 生成的 bundle，可以被另一个 LLM 查询。格式是契约，两端的工具可以独立替换。

格式本身，不是平台。 OKF 不绑定任何云服务、数据库、模型厂商或 agent 框架。读写它不需要任何专有账号或 SDK。谷歌选择把它作为开放标准发布，因为知识格式的价值来自有多少人在用它，不是来自谁拥有它。

谷歌同步发布了三个参考实现

光有规范不够，谷歌同时发布了配套工具，目的是降低试用门槛。

一个数据丰富 agent：自动扫描 BigQuery 数据集，为每张表和每个视图起草一份 OKF 概念文档，然后再跑一遍 LLM，爬取权威文档，补充 schema、引用和关联路径。

一个静态 HTML 可视化工具：把任意 OKF bundle 转成一个可以交互的图视图，单个自包含文件，不需要后端，不需要安装，数据不离开本地。

三个可以直接浏览的样例 bundle：GA4 电商数据集、Stack Overflow、比特币公开数据集，都是用上面那个参考 agent 生成的，提交在 repo 里作为格式合规的活示例。

谷歌特别说明：这三个工具是概念验证，不是唯一实现方式。格式对工具没有要求，生产者和消费者的生态系统可以自由生长。

现在能做什么

谷歌已经更新了自己的 Google Cloud Knowledge Catalog，支持摄入 OKF 格式并把它提供给 agent 使用。

规范、参考实现和样例 bundle 都在 GitHub 上开放，目前是 v0.1，显式为向后兼容扩展而设计。

谷歌给开发者的行动建议是：读规范（很短），给你的数据源写一个生产者，给你的使用场景写一个消费者，对着自己的数据跑一下参考实现，有问题就提 issue 或 PR。

参考：

https://cloud.google.com/blog/products/data-analytics/how-the-open-knowledge-format-can-improve-data-sharing/

文章来自于"AI寒武纪"，作者 "AI寒武纪"。

关键词: AI新闻 , 谷歌AI , Open Knowledge Format , AI知识库通用格式 , OKF

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT