深度｜英伟达生成式AI研究负责人刘明宇：在这个物理世界里，理解和生成都非常重要

8385点击 2026-04-20 09:44

图片来源：NVIDIA

Z Highlights

如何创建大规模的Physical AI数据，来加速Physical AI开发者的进展。我们采取的方法，本质上是用算力去换数据；

我们最终想在Cosmos中做的事情，就是为机器人打造一个“黑客帝国”。不是给人类，而是给机器人。

在这个物理世界里，理解和生成都非常重要：理解帮助你看懂这个世界、推理潜在结果，生成则帮助你模拟未来......Cosmos 3，我们会把它们融合到一起，做成一个既能理解、又能生成的统一模型。

Ming-Yu Liu现任NVIDIA副总裁、Generative AI Research负责人。在NVIDIA GTC 2026的演讲《How Open World Models are Powering the Next Breakthroughs in Physical AI》中，他系统介绍了Cosmos的最新进展，重点讨论开放世界模型如何通过生成物理数据、视频理解与未来预测，推动Physical AI和机器人开发。

从生成式AI到Physical AI：下一阶段正在到来

我想给大家汇报一下Cosmos计划的最新进展，谈谈我们如何构建开放世界模型，来帮助Physical AI开发者。不过在这之前，我们先回顾一下AI的演进。我们最开始经历的是生成式AI（Generative AI）阶段，现在大致处在智能体AI（Agent AI）阶段，而下一步将会是Physical AI。在生成式AI阶段，关键性的里程碑是各种聊天机器人，比如ChatGPT，以及各种内容生成工具。我们之所以能够构建出这些强大的AI模型，是因为我们拥有海量的互联网数据。过去几十年里，人们在互联网上沉淀了大量知识、图像和视觉内容，而这些都成为训练最先进生成式AI模型的宝贵资源。

而智能体AI的核心，在于使用数字工具。我们今天已经看到的里程碑，就是像Claude Code、Codex这样的编程模型，它们已经改变了软件开发的方式。我们也有各种云端工具，帮助你订票、回复邮件、配置电脑。再往前一点，当你在编译某些库或安装某些东西时遇到问题，你可能会上类似Stack Overflow这样的网站发帖提问，然后会有专家帮你找到答案。这些信息后来都成了训练智能体AI模型的宝贵起点。

而现在，随着编程智能体变得越来越强，你实际上已经可以用它们去进行模拟、生成输出，并与各种数字工具交互。只要结果是可验证的，你就可以快速生成海量训练数据。所以我相信，智能体AI也会非常成功，因为我们已经找到了创建大规模数字工具使用数据的方法。生成式AI之所以成功，是因为有海量大规模数据；而智能体AI也能够成功，是因为我们现在也有办法创造海量的数字工具使用数据。

Physical AI的目标，则是让生成式AI去控制物理世界中的工具——也就是从智能体AI中的数字工具，进一步走向物理工具。常见的物理工具包括车辆、机器人以及类人机器人。以类人机器人为例，我们现在面临一个典型的鸡生蛋、蛋生鸡问题：我们没有足够多的类人机器人部署在现实环境中，因此无法收集海量训练数据；因为没有海量训练数据，我们就造不出足够强大的类人机器人模型；而因为这些模型还不够强，大家就不会去购买这些机器人。所以，我们必须找到一种办法，打破这个数据困局，先获得一批初始的高质量数据，让这些机器人先变得“足够好”，从而真正开启这场Physical AI革命。

因此，我今天的分享，以及Cosmos的使命，就是：如何创建大规模的Physical AI数据，来加速Physical AI开发者的进展。这就是我们看待Physical AI数据问题的方式。我们把它想象成一个金字塔。最底层是互联网规模的数据。这些数据并不是从机器人的视角采集的，它们更多是从信息分享或叙事表达的视角产生的；但它们依然编码了这个世界的动态，记录了现实世界中的事情是如何发生的。在物理世界中，我们可以构建一种世界模型，比如Cosmos这样的媒介，去吸收这些互联网规模数据中包含的知识。世界模型能够理解并模拟物理世界。

有了这样的世界模型，我们就可以开始生成更贴近机器人视角的合成数据。你也可以借助像NVIDIA Newton这样的物理引擎，去帮助生成用于训练世界模型的数据——尤其是那些在现实世界中难以采集的数据，或者用来补充一部分合成数据。

但即便有了这两者，仍然还不够。你依然需要一部分机器人真实数据（in-robot data）。这类数据记录的是：机器人所观察到的内容，与它所采取的动作之间的对应关系。也就是说，它负责把“观察”与“动作”连接起来。而当你同时拥有这三类东西——机器人真实数据、合成数据，以及世界模型——你就可以开始构建Physical Agent了。虽然其中有些数据是被动数据，也就是说，在训练过程中，它们不会随着物理智能体的动作实时作出反应；但世界模型是可交互的。而这正是我们构建Cosmos的原因。

为机器人打造一个“黑客帝国”

在继续往下讲之前，我想先播放一段非常著名的影片片段，来自1999年的《黑客帝国》。

所以，我们最终想在Cosmos中做的事情，就是为机器人打造一个“黑客帝国”。不是给人类，而是给机器人。这样一来，机器人就可以在被部署到现实世界之前，先在世界模型中学习各种技能、进行各种交互和训练。它不会破坏你周围的真实环境，因为它已经在计算系统中、在模拟环境里完成了所有训练。所以终极形态的Cosmos，将会是一个面向Physical AI的生成式训练设施（generative training facility）。它本质上是一个训练设施：输入是智能体、环境和任务；输出则是一个更强的智能体——一个具备在该环境中完成任务能力的智能体。

我们先从一个简单例子开始。输入可以是一个机器人的策略（policy），目标环境可以是一间厨房，任务是：拿起刀和黄瓜，并把黄瓜切成两半。一开始，作为输入的这个策略，其实并不知道该怎么完成这个任务。但经过这个生成式训练设施之后，我们会把这个智能体送入许多厨房场景中，让它在环境里借助相应工具完成任务，并通过训练，最终得到一个可以胜任这项任务的智能体。

也就是说，更新后的机器人策略将具备在那个厨房里拿起刀、把黄瓜切成两半的能力。如果你有机器学习背景，你会知道，让模型变得更强的一种方式就是数据增强（augmentation）。我们可以先从环境增强开始。不是只给它一个厨房，而是给它k个厨房。当k变得很大时，更新后的策略就能够在很多不同的厨房中完成任务，甚至还能泛化到它从未见过的新厨房。你也可以进一步增强任务本身。你可以同时增强环境和任务。

这样一来，经过这个生成式训练设施训练之后，输出的策略就会更强，它会掌握更多技能，能够适应更多厨房场景，甚至还能覆盖一些从未见过的新任务。而要构建这样一个生成式训练设施，世界模型——也就是终极形态的Cosmos——必须具备两个基础能力。

第一个能力，是理解与推理能力。这样它才能判断：智能体在模拟环境中是否真的完成了任务。它需要查看最终状态，再结合任务本身，判断最终状态是否符合任务要求，从而确认智能体是否真正完成了任务。在此基础上，你就可以得到一个奖励值R（reward），然后利用这个奖励去更新你的策略。

第二个能力，是预测或生成能力。也就是它必须能够模拟未来。给定当前状态和任务，世界模型需要去模拟：这个智能体策略在该环境中会采取什么动作；而基于这些动作，世界模型又会作出反应，给出新的状态。这样不断顺序推进下去，最终你就能够看到：它到底有没有真正完成任务。

Cosmos的三大核心模型：Reason、Predict 与Transfer

我想强调一点：理解能力和预测能力，是构建这种生成式训练设施、也就是终极版Cosmos的两个基础能力。离那个最终目标当然还有很长的路要走，但我想说的是，在通往终点的过程中，沿途产出的中间成果，其实已经能够为今天的Physical AI开发者提供现实价值。理解能力可以成为非常好的视频分析工具，帮助你弄清楚观测数据和传感器信号里到底发生了什么；生成能力则可以帮助你创建合成数据。如果把理解能力和预测能力结合起来，还可以用于policy evaluation，也就是在虚拟世界里先评估策略模型的质量，而不是直接把它部署到真实世界。与此同时，一个同时具备强理解与生成能力的模型，本身也可以成为策略模型的良好起点，你可以在这个基础上继续训练或微调policy model。

所以，今天的Cosmos，在实现终极目标之前，已经由四个部分组成，专门用来帮助Physical AI开发者：models、scripts、frameworks和blueprints。目前我们有三类核心模型：Cosmos Reason 2、Cosmos Predict 2 和 Cosmos Transfer 2.5。其中，Reason主要负责理解，Predict主要负责预测和未来生成，Transfer则面向视频生成相关能力。我们还提供了用于推理和后训练（post-training）的脚本，也有一套Cosmos Cookbook，帮助开发者了解如何使用这些模型。在框架层面，我们有Cosmos Curator，用于整理Physical AI数据并对Cosmos模型进行后训练；有Cosmos-IO，用于在Cosmos模型之上开展I/O post-training；还有Cosmos Evaluator，用来评估后训练后模型的质量。

此外，我们还提供了Blueprints，也就是把Cosmos模型和数字工具连接起来、形成生产工作流的示例方案。这里面包括所谓的VSS Blueprints，也就是搜索与总结相关的蓝图；还包括Cosmos Data Search和Physical AI Data Factory。目前，我们的Cosmos模型在Physical AI的若干开源基准上已经排名第一：一项是面向物理世界生成的benchmark，另一项是面向Physical AI理解能力的开放式视觉语言模型benchmark。自去年发布以来，Cosmos的累计下载量已经达到数百万级。我们想做的是，把Cosmos打造成很多Physical AI开发者都能依赖的一个强大基础骨干模型。

在Cosmos刚开始构思的时候，我们就认为，后训练会是整个体系里至关重要的一环，因为每一种机器人看世界的方式都不一样。有的机器人有7个摄像头，有的有12个摄像头，有的还带有LiDAR传感器；不同机器人形态之间差异很大，尤其是humanoid robot。正因为如此，我们相信应该向开发者提供后训练脚本和预训练好的backbone Cosmos模型，让他们能够把模型进一步调整到更适合各自embodiment的形态上，而这也正是我们持续开发Cosmos所要实现的目标。

接下来我们来看三类Cosmos模型：Cosmos Reason 2、Cosmos Predict 2和Cosmos Transfer 2.5。先说Cosmos Reason 2。它是一个面向物理世界理解的模型，接收视频输入和文本提示（prompt），通过视觉语言模型架构生成输出，而且它会在生成答案之前先进行“思考”。这个模型在今年CES刚刚发布，目前已经有较小参数版本可用，更大的版本也会很快推出，所有checkpoint都会在Hugging Face上开放，同时也会配套post-training脚本。它目前在两个benchmark数据集上都位列开放式视觉语言模型第一。它可以被用来分析视频中到底发生了什么，比如判断电网场景里是否存在潜在风险，或者理解一段自动驾驶视频中发生了什么。它也已经成为NVIDIA内部一些Physical AI项目的基础模型。你可能听说过NVIDIA在自动驾驶policy model以及humanoid policy model上的努力，而Cosmos就是支撑这些内部项目的backbone。我们的目标不是急着推出自己的policy model，而是先确保Cosmos本身对广大Physical AI开发者真正有用。

再说Cosmos Predict。这是一个视频预测模型：给定当前帧和文本提示，它可以预测未来。它支持多种预测模式，既可以接受单张图像作为输入，也可以接受多帧图像或视频作为输入。目前我们有两个主要模型版本，分别是较小参数版和更大参数版。我们也支持diffusion方案，并配套提供后训练脚本，未来还会通过若干云服务平台提供。借助预训练的Predict模型和这些post-training脚本，你可以把模型进一步调优到自己的目标领域上，获得更好的性能；你还可以把它扩展成多视角形式，模拟机器人真实会看到的输入，例如头部相机再加上两个夹爪相机。它同样也可以成为更高层机器人模型的backbone。

我们来看一下Cosmos Policy。它的核心问题是：能不能把像NVIDIA Cosmos这样的开源视频生成模型，不只是用来生成多样化的机器人视频，还进一步经过后训练，让它同时生成控制机器人的动作？在这项工作中，他们提出了Cosmos Policy，也就是一个从NVIDIA Cosmos Predict 2视频模型微调而来的机器人策略模型。经过后训练之后，Cosmos不仅能够预测未来图像，还能够预测机器人动作和价值（value）。它有两种部署方式：一种是把它当作普通policy直接部署；另一种则是结合未来状态预测和值函数，采用基于模型的规划（model-based planning）来部署。

即便只是作为普通policy单独部署，Cosmos Policy在LIBERO仿真基准上也已经取得了当前最先进的表现，平均成功率达到98.5%；在RoboCasa仿真基准上，它同样实现了SOTA，而且使用的训练数据明显少于此前方法。文中还展示了rollout时机器人实际观察到的图像，以及Cosmos Policy预测出的未来画面。虽然这些未来图像在不做规划时并不是必需的，但它们可以作为一种很有用的可视化手段，帮助人理解这个policy“打算做什么”。

接下来，他们讨论的是：Cosmos Policy在真实世界中的表现到底如何。从演示来看，它可以根据用户的语言指令完成pick-and-place；也能执行长时程、接触丰富的操作任务，比如在只有15条训练示范的情况下完成折T恤这样包含很多步骤的任务；还能够完成连续的物体摆放任务，即使训练数据中存在很强的动作多模态性，比如随机交替使用左臂或右臂，它也能处理；此外，它还能够进行高精度操作，比如先小心抓住并打开一个自封袋，再把糖果放进去——这看上去简单，其实难度并不低。总体来看，在真实机器人测试中，Cosmos Policy表现很强，甚至超过了一些近期的vision-language-action模型。

更进一步地，一旦policy的评估完成，记录下来的rollout还可以反过来继续优化Cosmos Policy的世界模型和值函数。这样一来，Cosmos Policy在进行基于模型的规划时，就能更好地规划出成功率更高的动作轨迹。例如，他们展示了一种best-of-n search，其中n=3只是为了说明。流程是：先把当前状态输入Cosmos Policy，生成N个候选动作块；然后由它的世界模型预测这些动作所对应的未来状态，再由值函数预测这些未来状态的价值；最后选出价值最高的动作块，部署到机器人上，然后对下一个动作块重复这一搜索过程。这个搜索树还可以进一步展开：通过自回归地rollout世界模型，并在预测特征上继续查询policy，在多层展开后得到最后一层的value prediction，再据此选出价值最高的分支，并执行这个分支中的第一个动作块。

最后，model-based planning能在一些基础policy表现不佳的困难案例中显著提升效果。比如在一个抓糖果的任务里，基础版Cosmos Policy很难把糖果抓起来，最后五颗糖里只放进碗里一颗；而加入基于模型的规划之后，它就能取得更大进展，把五颗糖中的四颗成功放进碗里。另一个例子是打开自封袋时，基础版policy有时会在打开过程中失去抓握；而规划版policy则能够避免这类常见失败模式，继续完成任务。他们还展示了在rollout过程中由世界模型预测出来的特征，并指出：在用policy rollout进一步优化世界模型之后，真实未来状态通常会越来越贴近模型预测出的未来状态。

在基于模型的推理过程中，当前状态会被输入Cosmos Policy，生成若干候选特征。为了简化展示，他们只给出两个候选、搜索深度为3的例子。值函数会给右侧那个未来更高的分数，因为它显示出在打开自封袋任务上取得了更好的进展。还有一些例子中，两种未来状态在语义上非常接近，但值函数仍然会更偏好右边那个更“有把握”的预测。一般来说，这些预测特征之间的差异往往很细微，人眼未必容易看出来，但这些细微差异会不断累积，最终影响整段任务的结果。幸运的是，学到的值函数提供了一种数据驱动的方法，让系统能够在这些微小差别之间进行搜索，并找到更好的结果。总体上，他们发现，基于模型的规划平均能把Cosmos Policy在这些困难设定下的完成得分提高12.5分。

我尤其喜欢这项工作，因为它和基于模型的方法是相通的：你可以把未来状态预测出来，再给这些未来状态估值，然后挑选出最优结果，就像为你的物理智能体增加了一套能够前瞻未来的数据流。Cosmos Predict模型的另一个应用，是可以用来做policy evaluation。你可以对Cosmos Predict做后训练，让它以机器人采取的动作作为条件输入。这样一来，机器人每执行一个动作，都会改变系统状态，也会改变它接下来观测到的状态，有了这一点，你就可以单纯通过消耗算力来完成policy的评估。假设你手上有很多个policy model的checkpoint，比如100个，那你怎么知道哪一个最值得部署？你总不能真的把这100个checkpoint全都部署到真实机器人上去试，这显然效率不高。借助这种动作条件化的视频模型，你就可以把policy接到这个模型上，让智能体不断采取动作、推进状态，最后看到终态，再判断任务是否完成。

如果这种基于视频模型、也就是基于动作条件视频模型得出的排序结果，和你在真实世界里观察到的排序一致，那么它就能成为一个Agent指标，帮助你更快地开展开发工作。我们也做了一些实验来检验这件事是否成立，结果发现两者之间确实存在相关性。也就是说，一个policy如果在真实世界里表现更好，那么它在由世界模型构成的虚拟世界里通常也会表现更好；反过来，在虚拟世界里更好的policy，往往也更有可能是在现实世界里更好的policy。

从自动驾驶到手术模拟：Cosmos 的落地场景正在扩展

这个模型家族里的最后一个模型是Cosmos Transfer。它是一个可以把控制输入转换成照片级真实感视频输出的模型。目前的Cosmos Transfer支持以下几类控制信号：深度、边缘、分割结果，以及模糊输入。这些信号既可以单独使用，也可以任意组合使用，它们会成为控制信号，去影响Cosmos Transfer把噪声逐步转换成视频的过程。它可以用于多视角生成，也可以把物理引擎渲染出来的结果转换得更具真实感。你还可以使用风格图像，去改变真实视频素材的外观，帮助你生成更多变体。我们做了一组实验，来验证Cosmos Transfer是否有助于构建更好的policy。实验里有一个baseline，也有一个基础模型，这个policy model只用demonstration进行训练；然后还有一个在baseline基础上加入synthetic video增强的版本。结果我们发现，使用Cosmos Transfer生成更多变化后，确实可以得到一个成功率更高的policy。借助它的多视角能力，我们还可以在这里构建一个驾驶模拟器。

你可以把它理解成这样：先有一个世界场景，它更像是你在街道上所观察到内容的一种语义表示，里面会有bounding boxes，比如移动车辆的框，也会有车道线之类的信息，这些构成了语义输入。然后，你可以用Cosmos Transfer把这些语义输入转换成你坐在车里真正会看到的那种多视角视频。实际上，我们已经用它来搭建一个驾驶模拟器，并把它放在今年的一个演示展台上，名字叫AlphaDrive。这是一个实时生成式闭环自动驾驶模拟器。我们把它接到方向盘上，于是当你左转、右转时，你就会看到视频随着你的转向动作实时变化。你既可以让用户亲自操控方向盘，也可以让一个自动驾驶policy——比如AlphaDrive 1——来控制方向盘。当使用这个驾驶policy时，我们就能做这种闭环仿真，用来进一步改进模型。也就是说，AlphaDrive 1产生的动作，会输入到这个生成系统里，生成我刚才提到的世界场景图，也就是包含物体框和车道线的语义地图；接着，这些再通过Cosmos Transfer转换成真实视频输入；而这些真实视频输入又会被自动驾驶policy观察到，从而生成下一步动作。AlphaDrive 1是建立在Cosmos的推理能力之上的，而这个生成式驾驶模拟器则是建立在Cosmos的生成能力之上的。

这一年我们非常忙。Cosmos是在2025年1月正式发布的。当时我们发布了两类视频模型：一类叫Cosmos 1 Diffusion，也就是基于diffusion的视频模型；另一类则是Cosmos AR，也就是基于autoregressive的视频模型。与此同时，我们也发布了tokenizer。到了3月，我们发布了Cosmos Transfer 1，也就是Cosmos的第一个transfer版本，以及Cosmos Reason 1，也就是Cosmos的第一个理解版本。到了6月，我们发布了Cosmos Predictor，这是一个更好的版本，也是一个更强的、基于diffusion的生成backbone。到了10月，我们又发布了2.5版本的更新，其中也包括Transfer2.5。

今年一月，我们发布了Cosmos Reason 2，也发布了Cosmos Policy。现在我们正在推进Cosmos 3的早期版本。我想说的是，之前我们把理解能力和生成能力分别做在两个不同的模型里；而到了Cosmos 3，我们会把它们融合到一起。所以它将成为一个既能理解、又能生成的统一模型，而且会是一个omni model。它可以接收图像、视频、声音以及动作作为输入，输出里也会包含文本。你在做推理时会用到文本，而在做生成时则会涉及图像、视频、声音和动作。所以，这个模型本身既可以成为一个动作条件化的视频生成器，也可以直接预测动作。

我们采用的是一种多模态Transformer架构。主干里有两个核心Transformer：一个负责推理，我们称之为Reasoner；另一个负责生成，我们称之为Generator。它们被紧密地耦合在一起，因此整体上是一个单一模型。

接下来我也想讲几个应用案例。由于Cosmos已经被很多人使用，其中有一个应用就是把Cosmos用到医疗健康领域。比如，我们可以把手术视频的语义分割结果转换成逼真的手术视频，这是一种创建训练数据的方法，也就是由Cosmos Transfer驱动的surgical transfer。我们也可以直接通过Transfer和Predict生成具有挑战性的手术操作视频；类似于我们为自动驾驶策略构建系统的方式，我们同样可以搭建一个手术模拟器，让它与策略模型进行交互。我们还有一个用于视频搜索与摘要的blueprint。你可以想象一个工厂里有大量摄像头，那么该如何识别所有关键事件，如何判断工人是否遵守安全规范？我们可以利用Cosmos的理解能力，大规模地完成这类工作。即使面对很多路实时摄像头视频流，我们也可以借助VSS去判断其中是否出现了需要你关注的事件。

我们还构建了一个Physical Data Factory blueprint，帮助你生成物理世界数据。你既可以利用物理引擎，也可以利用你手头已有的数据，再结合Transfer做数据增强，同时利用Reason去描述视频内容、为视频数据提供更丰富的标注，从而服务于你的具体应用。在这次GTC上，我们还发布了GR00T N1.7，这是我们最新一代的人形机器人策略模型。GR00T N1建立Cosmos的推理能力之上，并且针对人形机器人做了优化。我们还提供了一整套工具，帮助你根据自己的具体场景对这个模型进行定制，让它更适合你的使用需求。Cosmos Cookbook也是一个非常好的入口，如果你想看看Cosmos能做什么，那里有很多现成的recipe，可以帮助你快速上手，真正动手使用Cosmos模型。

最后再回到最初的话题：我们构建Cosmos，是为了尝试解决物理数据问题。我们采取的方法，本质上是用算力去换数据。在真实世界里采集这些物理数据非常困难；但如果我们能够生成这些数据，就能帮助你加快Physical AI的开发。当然，算力越多，你就能生成越多的数据。

借这个机会，我也想解释一下什么是世界模型。世界模型大体分为两种：一种面向数字世界，另一种面向物理世界。数字世界里的“世界”，指的是数字智能体所经历的环境，比如你的电脑、编译器、软件环境，当然你也可以为这种环境构建世界模型。但Cosmos关注的是物理世界，关注真实物理规律，以及Physical AI智能体如何与真实世界交互。在这个物理世界里，理解和生成都非常重要：理解帮助你看懂这个世界、推理潜在结果，生成则帮助你模拟未来。

我们把Cosmos打造成一个强大的基础骨干模型，来帮助Physical AI开发者。最开始，我们也是先支持NVIDIA内部的Physical AI开发团队，包括自动驾驶团队和机器人团队。最后我也想借这个机会预告一下明天的活动。我们会有一场panel discussion，届时会有四位很棒的嘉宾：来自Stanford的Stefano Ermon、Runway的CTO、Adobe Firefly Research的负责人，以及Fable的CEO。我们会一起讨论diffusion以及接下来的发展方向。我也想顺便推荐一下我们的视频研究相关会场，其中有一场关于利用世界模型推进自动驾驶的分享；在这次GTC活动里，也还有一些可以和Cosmos专家直接交流的session。我的分享就到这里。谢谢大家。

原视频：https://www.youtube.com/watch?v=3Errq-0T9w0&list=PL3jK4xNnlCVclphegeS4R9JYbhWprKJe_&index=2

How Open World Models are Powering the Next Breakthroughs in Physical AI

编译：GinYibe

文章来自于“Z Potentials”，作者“刘明宇”。

关键词: AI新闻 , Physical AI , 刘明宇 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0