
图片来源:NVIDIA
Ming-Yu Liu现任NVIDIA副总裁、Generative AI Research负责人。在NVIDIA GTC 2026的演讲《How Open World Models are Powering the Next Breakthroughs in Physical AI》中,他系统介绍了Cosmos的最新进展,重点讨论开放世界模型如何通过生成物理数据、视频理解与未来预测,推动Physical AI和机器人开发。
我想给大家汇报一下Cosmos计划的最新进展,谈谈我们如何构建开放世界模型,来帮助Physical AI开发者。不过在这之前,我们先回顾一下AI的演进。我们最开始经历的是生成式AI(Generative AI)阶段,现在大致处在智能体AI(Agent AI)阶段,而下一步将会是Physical AI。在生成式AI阶段,关键性的里程碑是各种聊天机器人,比如ChatGPT,以及各种内容生成工具。我们之所以能够构建出这些强大的AI模型,是因为我们拥有海量的互联网数据。过去几十年里,人们在互联网上沉淀了大量知识、图像和视觉内容,而这些都成为训练最先进生成式AI模型的宝贵资源。
而智能体AI的核心,在于使用数字工具。我们今天已经看到的里程碑,就是像Claude Code、Codex这样的编程模型,它们已经改变了软件开发的方式。我们也有各种云端工具,帮助你订票、回复邮件、配置电脑。再往前一点,当你在编译某些库或安装某些东西时遇到问题,你可能会上类似Stack Overflow这样的网站发帖提问,然后会有专家帮你找到答案。这些信息后来都成了训练智能体AI模型的宝贵起点。
而现在,随着编程智能体变得越来越强,你实际上已经可以用它们去进行模拟、生成输出,并与各种数字工具交互。只要结果是可验证的,你就可以快速生成海量训练数据。所以我相信,智能体AI也会非常成功,因为我们已经找到了创建大规模数字工具使用数据的方法。生成式AI之所以成功,是因为有海量大规模数据;而智能体AI也能够成功,是因为我们现在也有办法创造海量的数字工具使用数据。
Physical AI的目标,则是让生成式AI去控制物理世界中的工具——也就是从智能体AI中的数字工具,进一步走向物理工具。常见的物理工具包括车辆、机器人以及类人机器人。以类人机器人为例,我们现在面临一个典型的鸡生蛋、蛋生鸡问题:我们没有足够多的类人机器人部署在现实环境中,因此无法收集海量训练数据;因为没有海量训练数据,我们就造不出足够强大的类人机器人模型;而因为这些模型还不够强,大家就不会去购买这些机器人。所以,我们必须找到一种办法,打破这个数据困局,先获得一批初始的高质量数据,让这些机器人先变得“足够好”,从而真正开启这场Physical AI革命。
因此,我今天的分享,以及Cosmos的使命,就是:如何创建大规模的Physical AI数据,来加速Physical AI开发者的进展。这就是我们看待Physical AI数据问题的方式。我们把它想象成一个金字塔。最底层是互联网规模的数据。这些数据并不是从机器人的视角采集的,它们更多是从信息分享或叙事表达的视角产生的;但它们依然编码了这个世界的动态,记录了现实世界中的事情是如何发生的。在物理世界中,我们可以构建一种世界模型,比如Cosmos这样的媒介,去吸收这些互联网规模数据中包含的知识。世界模型能够理解并模拟物理世界。
有了这样的世界模型,我们就可以开始生成更贴近机器人视角的合成数据。你也可以借助像NVIDIA Newton这样的物理引擎,去帮助生成用于训练世界模型的数据——尤其是那些在现实世界中难以采集的数据,或者用来补充一部分合成数据。
但即便有了这两者,仍然还不够。你依然需要一部分机器人真实数据(in-robot data)。这类数据记录的是:机器人所观察到的内容,与它所采取的动作之间的对应关系。也就是说,它负责把“观察”与“动作”连接起来。而当你同时拥有这三类东西——机器人真实数据、合成数据,以及世界模型——你就可以开始构建Physical Agent了。虽然其中有些数据是被动数据,也就是说,在训练过程中,它们不会随着物理智能体的动作实时作出反应;但世界模型是可交互的。而这正是我们构建Cosmos的原因。
在继续往下讲之前,我想先播放一段非常著名的影片片段,来自1999年的《黑客帝国》。
所以,我们最终想在Cosmos中做的事情,就是为机器人打造一个“黑客帝国”。不是给人类,而是给机器人。这样一来,机器人就可以在被部署到现实世界之前,先在世界模型中学习各种技能、进行各种交互和训练。它不会破坏你周围的真实环境,因为它已经在计算系统中、在模拟环境里完成了所有训练。所以终极形态的Cosmos,将会是一个面向Physical AI的生成式训练设施(generative training facility)。它本质上是一个训练设施:输入是智能体、环境和任务;输出则是一个更强的智能体——一个具备在该环境中完成任务能力的智能体。
我们先从一个简单例子开始。输入可以是一个机器人的策略(policy),目标环境可以是一间厨房,任务是:拿起刀和黄瓜,并把黄瓜切成两半。一开始,作为输入的这个策略,其实并不知道该怎么完成这个任务。但经过这个生成式训练设施之后,我们会把这个智能体送入许多厨房场景中,让它在环境里借助相应工具完成任务,并通过训练,最终得到一个可以胜任这项任务的智能体。
也就是说,更新后的机器人策略将具备在那个厨房里拿起刀、把黄瓜切成两半的能力。如果你有机器学习背景,你会知道,让模型变得更强的一种方式就是数据增强(augmentation)。我们可以先从环境增强开始。不是只给它一个厨房,而是给它k个厨房。当k变得很大时,更新后的策略就能够在很多不同的厨房中完成任务,甚至还能泛化到它从未见过的新厨房。你也可以进一步增强任务本身。你可以同时增强环境和任务。
这样一来,经过这个生成式训练设施训练之后,输出的策略就会更强,它会掌握更多技能,能够适应更多厨房场景,甚至还能覆盖一些从未见过的新任务。而要构建这样一个生成式训练设施,世界模型——也就是终极形态的Cosmos——必须具备两个基础能力。
第一个能力,是理解与推理能力。这样它才能判断:智能体在模拟环境中是否真的完成了任务。它需要查看最终状态,再结合任务本身,判断最终状态是否符合任务要求,从而确认智能体是否真正完成了任务。在此基础上,你就可以得到一个奖励值R(reward),然后利用这个奖励去更新你的策略。
第二个能力,是预测或生成能力。也就是它必须能够模拟未来。给定当前状态和任务,世界模型需要去模拟:这个智能体策略在该环境中会采取什么动作;而基于这些动作,世界模型又会作出反应,给出新的状态。这样不断顺序推进下去,最终你就能够看到:它到底有没有真正完成任务。
我想强调一点:理解能力和预测能力,是构建这种生成式训练设施、也就是终极版Cosmos的两个基础能力。离那个最终目标当然还有很长的路要走,但我想说的是,在通往终点的过程中,沿途产出的中间成果,其实已经能够为今天的Physical AI开发者提供现实价值。理解能力可以成为非常好的视频分析工具,帮助你弄清楚观测数据和传感器信号里到底发生了什么;生成能力则可以帮助你创建合成数据。如果把理解能力和预测能力结合起来,还可以用于policy evaluation,也就是在虚拟世界里先评估策略模型的质量,而不是直接把它部署到真实世界。与此同时,一个同时具备强理解与生成能力的模型,本身也可以成为策略模型的良好起点,你可以在这个基础上继续训练或微调policy model。
所以,今天的Cosmos,在实现终极目标之前,已经由四个部分组成,专门用来帮助Physical AI开发者:models、scripts、frameworks和blueprints。目前我们有三类核心模型:Cosmos Reason 2、Cosmos Predict 2 和 Cosmos Transfer 2.5。其中,Reason主要负责理解,Predict主要负责预测和未来生成,Transfer则面向视频生成相关能力。我们还提供了用于推理和后训练(post-training)的脚本,也有一套Cosmos Cookbook,帮助开发者了解如何使用这些模型。在框架层面,我们有Cosmos Curator,用于整理Physical AI数据并对Cosmos模型进行后训练;有Cosmos-IO,用于在Cosmos模型之上开展I/O post-training;还有Cosmos Evaluator,用来评估后训练后模型的质量。
此外,我们还提供了Blueprints,也就是把Cosmos模型和数字工具连接起来、形成生产工作流的示例方案。这里面包括所谓的VSS Blueprints,也就是搜索与总结相关的蓝图;还包括Cosmos Data Search和Physical AI Data Factory。目前,我们的Cosmos模型在Physical AI的若干开源基准上已经排名第一:一项是面向物理世界生成的benchmark,另一项是面向Physical AI理解能力的开放式视觉语言模型benchmark。自去年发布以来,Cosmos的累计下载量已经达到数百万级。我们想做的是,把Cosmos打造成很多Physical AI开发者都能依赖的一个强大基础骨干模型。
在Cosmos刚开始构思的时候,我们就认为,后训练会是整个体系里至关重要的一环,因为每一种机器人看世界的方式都不一样。有的机器人有7个摄像头,有的有12个摄像头,有的还带有LiDAR传感器;不同机器人形态之间差异很大,尤其是humanoid robot。正因为如此,我们相信应该向开发者提供后训练脚本和预训练好的backbone Cosmos模型,让他们能够把模型进一步调整到更适合各自embodiment的形态上,而这也正是我们持续开发Cosmos所要实现的目标。
接下来我们来看三类Cosmos模型:Cosmos Reason 2、Cosmos Predict 2和Cosmos Transfer 2.5。先说Cosmos Reason 2。它是一个面向物理世界理解的模型,接收视频输入和文本提示(prompt),通过视觉语言模型架构生成输出,而且它会在生成答案之前先进行“思考”。这个模型在今年CES刚刚发布,目前已经有较小参数版本可用,更大的版本也会很快推出,所有checkpoint都会在Hugging Face上开放,同时也会配套post-training脚本。它目前在两个benchmark数据集上都位列开放式视觉语言模型第一。它可以被用来分析视频中到底发生了什么,比如判断电网场景里是否存在潜在风险,或者理解一段自动驾驶视频中发生了什么。它也已经成为NVIDIA内部一些Physical AI项目的基础模型。你可能听说过NVIDIA在自动驾驶policy model以及humanoid policy model上的努力,而Cosmos就是支撑这些内部项目的backbone。我们的目标不是急着推出自己的policy model,而是先确保Cosmos本身对广大Physical AI开发者真正有用。
再说Cosmos Predict。这是一个视频预测模型:给定当前帧和文本提示,它可以预测未来。它支持多种预测模式,既可以接受单张图像作为输入,也可以接受多帧图像或视频作为输入。目前我们有两个主要模型版本,分别是较小参数版和更大参数版。我们也支持diffusion方案,并配套提供后训练脚本,未来还会通过若干云服务平台提供。借助预训练的Predict模型和这些post-training脚本,你可以把模型进一步调优到自己的目标领域上,获得更好的性能;你还可以把它扩展成多视角形式,模拟机器人真实会看到的输入,例如头部相机再加上两个夹爪相机。它同样也可以成为更高层机器人模型的backbone。
我们来看一下Cosmos Policy。它的核心问题是:能不能把像NVIDIA Cosmos这样的开源视频生成模型,不只是用来生成多样化的机器人视频,还进一步经过后训练,让它同时生成控制机器人的动作?在这项工作中,他们提出了Cosmos Policy,也就是一个从NVIDIA Cosmos Predict 2视频模型微调而来的机器人策略模型。经过后训练之后,Cosmos不仅能够预测未来图像,还能够预测机器人动作和价值(value)。它有两种部署方式:一种是把它当作普通policy直接部署;另一种则是结合未来状态预测和值函数,采用基于模型的规划(model-based planning)来部署。
即便只是作为普通policy单独部署,Cosmos Policy在LIBERO仿真基准上也已经取得了当前最先进的表现,平均成功率达到98.5%;在RoboCasa仿真基准上,它同样实现了SOTA,而且使用的训练数据明显少于此前方法。文中还展示了rollout时机器人实际观察到的图像,以及Cosmos Policy预测出的未来画面。虽然这些未来图像在不做规划时并不是必需的,但它们可以作为一种很有用的可视化手段,帮助人理解这个policy“打算做什么”。
接下来,他们讨论的是:Cosmos Policy在真实世界中的表现到底如何。从演示来看,它可以根据用户的语言指令完成pick-and-place;也能执行长时程、接触丰富的操作任务,比如在只有15条训练示范的情况下完成折T恤这样包含很多步骤的任务;还能够完成连续的物体摆放任务,即使训练数据中存在很强的动作多模态性,比如随机交替使用左臂或右臂,它也能处理;此外,它还能够进行高精度操作,比如先小心抓住并打开一个自封袋,再把糖果放进去——这看上去简单,其实难度并不低。总体来看,在真实机器人测试中,Cosmos Policy表现很强,甚至超过了一些近期的vision-language-action模型。
更进一步地,一旦policy的评估完成,记录下来的rollout还可以反过来继续优化Cosmos Policy的世界模型和值函数。这样一来,Cosmos Policy在进行基于模型的规划时,就能更好地规划出成功率更高的动作轨迹。例如,他们展示了一种best-of-n search,其中n=3只是为了说明。流程是:先把当前状态输入Cosmos Policy,生成N个候选动作块;然后由它的世界模型预测这些动作所对应的未来状态,再由值函数预测这些未来状态的价值;最后选出价值最高的动作块,部署到机器人上,然后对下一个动作块重复这一搜索过程。这个搜索树还可以进一步展开:通过自回归地rollout世界模型,并在预测特征上继续查询policy,在多层展开后得到最后一层的value prediction,再据此选出价值最高的分支,并执行这个分支中的第一个动作块。
最后,model-based planning能在一些基础policy表现不佳的困难案例中显著提升效果。比如在一个抓糖果的任务里,基础版Cosmos Policy很难把糖果抓起来,最后五颗糖里只放进碗里一颗;而加入基于模型的规划之后,它就能取得更大进展,把五颗糖中的四颗成功放进碗里。另一个例子是打开自封袋时,基础版policy有时会在打开过程中失去抓握;而规划版policy则能够避免这类常见失败模式,继续完成任务。他们还展示了在rollout过程中由世界模型预测出来的特征,并指出:在用policy rollout进一步优化世界模型之后,真实未来状态通常会越来越贴近模型预测出的未来状态。
在基于模型的推理过程中,当前状态会被输入Cosmos Policy,生成若干候选特征。为了简化展示,他们只给出两个候选、搜索深度为3的例子。值函数会给右侧那个未来更高的分数,因为它显示出在打开自封袋任务上取得了更好的进展。还有一些例子中,两种未来状态在语义上非常接近,但值函数仍然会更偏好右边那个更“有把握”的预测。一般来说,这些预测特征之间的差异往往很细微,人眼未必容易看出来,但这些细微差异会不断累积,最终影响整段任务的结果。幸运的是,学到的值函数提供了一种数据驱动的方法,让系统能够在这些微小差别之间进行搜索,并找到更好的结果。总体上,他们发现,基于模型的规划平均能把Cosmos Policy在这些困难设定下的完成得分提高12.5分。
我尤其喜欢这项工作,因为它和基于模型的方法是相通的:你可以把未来状态预测出来,再给这些未来状态估值,然后挑选出最优结果,就像为你的物理智能体增加了一套能够前瞻未来的数据流。Cosmos Predict模型的另一个应用,是可以用来做policy evaluation。你可以对Cosmos Predict做后训练,让它以机器人采取的动作作为条件输入。这样一来,机器人每执行一个动作,都会改变系统状态,也会改变它接下来观测到的状态,有了这一点,你就可以单纯通过消耗算力来完成policy的评估。假设你手上有很多个policy model的checkpoint,比如100个,那你怎么知道哪一个最值得部署?你总不能真的把这100个checkpoint全都部署到真实机器人上去试,这显然效率不高。借助这种动作条件化的视频模型,你就可以把policy接到这个模型上,让智能体不断采取动作、推进状态,最后看到终态,再判断任务是否完成。
如果这种基于视频模型、也就是基于动作条件视频模型得出的排序结果,和你在真实世界里观察到的排序一致,那么它就能成为一个Agent指标,帮助你更快地开展开发工作。我们也做了一些实验来检验这件事是否成立,结果发现两者之间确实存在相关性。也就是说,一个policy如果在真实世界里表现更好,那么它在由世界模型构成的虚拟世界里通常也会表现更好;反过来,在虚拟世界里更好的policy,往往也更有可能是在现实世界里更好的policy。
这个模型家族里的最后一个模型是Cosmos Transfer。它是一个可以把控制输入转换成照片级真实感视频输出的模型。目前的Cosmos Transfer支持以下几类控制信号:深度、边缘、分割结果,以及模糊输入。这些信号既可以单独使用,也可以任意组合使用,它们会成为控制信号,去影响Cosmos Transfer把噪声逐步转换成视频的过程。它可以用于多视角生成,也可以把物理引擎渲染出来的结果转换得更具真实感。你还可以使用风格图像,去改变真实视频素材的外观,帮助你生成更多变体。我们做了一组实验,来验证Cosmos Transfer是否有助于构建更好的policy。实验里有一个baseline,也有一个基础模型,这个policy model只用demonstration进行训练;然后还有一个在baseline基础上加入synthetic video增强的版本。结果我们发现,使用Cosmos Transfer生成更多变化后,确实可以得到一个成功率更高的policy。借助它的多视角能力,我们还可以在这里构建一个驾驶模拟器。
你可以把它理解成这样:先有一个世界场景,它更像是你在街道上所观察到内容的一种语义表示,里面会有bounding boxes,比如移动车辆的框,也会有车道线之类的信息,这些构成了语义输入。然后,你可以用Cosmos Transfer把这些语义输入转换成你坐在车里真正会看到的那种多视角视频。实际上,我们已经用它来搭建一个驾驶模拟器,并把它放在今年的一个演示展台上,名字叫AlphaDrive。这是一个实时生成式闭环自动驾驶模拟器。我们把它接到方向盘上,于是当你左转、右转时,你就会看到视频随着你的转向动作实时变化。你既可以让用户亲自操控方向盘,也可以让一个自动驾驶policy——比如AlphaDrive 1——来控制方向盘。当使用这个驾驶policy时,我们就能做这种闭环仿真,用来进一步改进模型。也就是说,AlphaDrive 1产生的动作,会输入到这个生成系统里,生成我刚才提到的世界场景图,也就是包含物体框和车道线的语义地图;接着,这些再通过Cosmos Transfer转换成真实视频输入;而这些真实视频输入又会被自动驾驶policy观察到,从而生成下一步动作。AlphaDrive 1是建立在Cosmos的推理能力之上的,而这个生成式驾驶模拟器则是建立在Cosmos的生成能力之上的。
这一年我们非常忙。Cosmos是在2025年1月正式发布的。当时我们发布了两类视频模型:一类叫Cosmos 1 Diffusion,也就是基于diffusion的视频模型;另一类则是Cosmos AR,也就是基于autoregressive的视频模型。与此同时,我们也发布了tokenizer。到了3月,我们发布了Cosmos Transfer 1,也就是Cosmos的第一个transfer版本,以及Cosmos Reason 1,也就是Cosmos的第一个理解版本。到了6月,我们发布了Cosmos Predictor,这是一个更好的版本,也是一个更强的、基于diffusion的生成backbone。到了10月,我们又发布了2.5版本的更新,其中也包括Transfer2.5。
今年一月,我们发布了Cosmos Reason 2,也发布了Cosmos Policy。现在我们正在推进Cosmos 3的早期版本。我想说的是,之前我们把理解能力和生成能力分别做在两个不同的模型里;而到了Cosmos 3,我们会把它们融合到一起。所以它将成为一个既能理解、又能生成的统一模型,而且会是一个omni model。它可以接收图像、视频、声音以及动作作为输入,输出里也会包含文本。你在做推理时会用到文本,而在做生成时则会涉及图像、视频、声音和动作。所以,这个模型本身既可以成为一个动作条件化的视频生成器,也可以直接预测动作。
我们采用的是一种多模态Transformer架构。主干里有两个核心Transformer:一个负责推理,我们称之为Reasoner;另一个负责生成,我们称之为Generator。它们被紧密地耦合在一起,因此整体上是一个单一模型。
接下来我也想讲几个应用案例。由于Cosmos已经被很多人使用,其中有一个应用就是把Cosmos用到医疗健康领域。比如,我们可以把手术视频的语义分割结果转换成逼真的手术视频,这是一种创建训练数据的方法,也就是由Cosmos Transfer驱动的surgical transfer。我们也可以直接通过Transfer和Predict生成具有挑战性的手术操作视频;类似于我们为自动驾驶策略构建系统的方式,我们同样可以搭建一个手术模拟器,让它与策略模型进行交互。我们还有一个用于视频搜索与摘要的blueprint。你可以想象一个工厂里有大量摄像头,那么该如何识别所有关键事件,如何判断工人是否遵守安全规范?我们可以利用Cosmos的理解能力,大规模地完成这类工作。即使面对很多路实时摄像头视频流,我们也可以借助VSS去判断其中是否出现了需要你关注的事件。
我们还构建了一个Physical Data Factory blueprint,帮助你生成物理世界数据。你既可以利用物理引擎,也可以利用你手头已有的数据,再结合Transfer做数据增强,同时利用Reason去描述视频内容、为视频数据提供更丰富的标注,从而服务于你的具体应用。在这次GTC上,我们还发布了GR00T N1.7,这是我们最新一代的人形机器人策略模型。GR00T N1建立Cosmos的推理能力之上,并且针对人形机器人做了优化。我们还提供了一整套工具,帮助你根据自己的具体场景对这个模型进行定制,让它更适合你的使用需求。Cosmos Cookbook也是一个非常好的入口,如果你想看看Cosmos能做什么,那里有很多现成的recipe,可以帮助你快速上手,真正动手使用Cosmos模型。
最后再回到最初的话题:我们构建Cosmos,是为了尝试解决物理数据问题。我们采取的方法,本质上是用算力去换数据。在真实世界里采集这些物理数据非常困难;但如果我们能够生成这些数据,就能帮助你加快Physical AI的开发。当然,算力越多,你就能生成越多的数据。
借这个机会,我也想解释一下什么是世界模型。世界模型大体分为两种:一种面向数字世界,另一种面向物理世界。数字世界里的“世界”,指的是数字智能体所经历的环境,比如你的电脑、编译器、软件环境,当然你也可以为这种环境构建世界模型。但Cosmos关注的是物理世界,关注真实物理规律,以及Physical AI智能体如何与真实世界交互。在这个物理世界里,理解和生成都非常重要:理解帮助你看懂这个世界、推理潜在结果,生成则帮助你模拟未来。
我们把Cosmos打造成一个强大的基础骨干模型,来帮助Physical AI开发者。最开始,我们也是先支持NVIDIA内部的Physical AI开发团队,包括自动驾驶团队和机器人团队。最后我也想借这个机会预告一下明天的活动。我们会有一场panel discussion,届时会有四位很棒的嘉宾:来自Stanford的Stefano Ermon、Runway的CTO、Adobe Firefly Research的负责人,以及Fable的CEO。我们会一起讨论diffusion以及接下来的发展方向。我也想顺便推荐一下我们的视频研究相关会场,其中有一场关于利用世界模型推进自动驾驶的分享;在这次GTC活动里,也还有一些可以和Cosmos专家直接交流的session。我的分享就到这里。谢谢大家。
原视频:https://www.youtube.com/watch?v=3Errq-0T9w0&list=PL3jK4xNnlCVclphegeS4R9JYbhWprKJe_&index=2
How Open World Models are Powering the Next Breakthroughs in Physical AI
编译:GinYibe
文章来自于“Z Potentials”,作者“刘明宇”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0