AI Agent：从学术概念到增长驱动工具

6361点击 2024-11-14 15:21

在硅星人首届AI创造者大会（ACC 2024）上，五位AI Agent领域的先行者展开了一场关于技术落地与商业化的深度对话。来也科技联合创始人胡一川、实在智能创始人&CEO孙林君、汇智智能创始人&CEO孙志明、澜码科技创始人&CEO周健，以及主持人、AI创业者李博杰共同探讨了一个核心问题：AI Agent如何从学术概念真正转变为驱动企业增长的工具？从Agent的本质定义，到大模型带来的新机遇，再到To B与To C的商业化路径，五位嘉宾用一个个鲜活的案例，为我们揭示了AI Agent的发展现状与未来可能。(文章约15000字，阅读时长约30分钟）

以下为对话实录：

李博杰：大家下午好。我是今天的主持人李博杰，曾是华为天才少年，现在是一名AI创业者。

周健：我是周健，澜码科技创始人。我们公司专注于AI Agent平台的开发。

孙志明：我是孙志明，来自江苏汇智智能，我们致力于打造Agent创业平台。

孙林君：我是实在智能的孙林君，我们创业已有几年时间，一直在流程智能体领域探索。

胡一川：我是来也科技的联合创始人和CTO胡一川，我们的理念是"AI Agent for everyone"。

AI Agent 到底是什么？

李博杰：AI Agent是什么？有人觉得是有趣的，有人说是有用的，各位老师有什么看法？

周健：这个概念本身已经很久了。有一本教科书讲过AI Agent，之前更多的是讨论它如何下围棋或打游戏。本质上，AI能够感知环境、改变环境并做出决策。现在，我认为ChatGPT给大家带来了许多新的东西，但现状与理想之间仍存在较大差距。最近，Gartner发布了新的趋势报告Agentic AI , 认为AI Agent 的发展似乎是从0到1的过程。我们最好采取一种渐进的策略。我认为这是一个逐步进化的过程。或者说，在某种程度上,它应该拥有自己的领域和记忆。

孙志明：每个人心中都有对AI Agent的定义。在我眼中，未来的AGI时代将是Agent的天下，RPA等都是Agent的早期阶段。Agent时代究竟什么时候会到来？我们这些创业者把Agent作为当前的哪个阶段， AI Agent到底是什么？我认为它是未来的一个形态，当下我们处在一个什么样环境中的一个思考。

孙林君：我们官网上有一段话，我们产品经理刚开始自己写了一个Agent的定义，很晦涩。后来就问GPT4：“你用通俗的语言给我解释一下什么是智能体。”它的说法是，智能体——你可以把它理解成人类的助手，它可以按照你的意图，帮你完成特定的工作和任务。Agent从现在来看，它是人工智能角度的一个术语，一个代理，代表你完成任务的一个东西。

实在智能创立以后，我们进入到数字员工这个赛道，我们当时给客户讲，未来咱们会有很多数字的员工，帮我们去完成很多工作和任务。最开始我们从RPA（机器人流程自动化）切入，RPA做规则化任务，是以机器人的形式出现的。机器人智能化的属性加得越来越多，它就越来越智能，比如说我们加OCR（光学字符识别），加自然语言理解，你发现它的基础形态不变，智能化属性在变，到现在大模型发展到非常火热的今天，它进入到智能体的阶段。反过来我们看，数字员工对于企业和客户来讲很容易理解的概念，低阶形态是RPA，高阶形态是智能体，而智能体从人工智能角度来看的术语，我大致是这么理解的。

胡一川：从通俗易懂的角度来讲，有一个定义非常恰当：AI Agent，是一种能够端到端帮助用户完成复杂任务的形态。它与今天我们所见的ChatGPT等大模型产品最大的区别在于，AI Agent真正能够端到端地完成复杂任务。今天我们利用大模型已经可以进行出色的文案撰写。例如，如果我是一名市场营销人员，我可以利用这些工具撰写出高质量的触达客户邮件。从市场营销的角度来看，端到端的流程是从最初的客户获取、客户分析、客户触达，到客户沟通，这一系列流程是今天没有任何单一产品能够实现的。因为这一流程是端到端的，而且非常复杂。我们看到虽然管像ChatGPT这样的产品拥有庞大的用户群体，但它们很难在企业中被应用于端到端的复杂流程。

AI Agent：从学术概念到增长驱动工具

大模型能力对AI Agent 的助力

李博杰：最近一个月有很多大模型领域最新的进展。OpenAI o1提高了推理能力，GPT4o支持实时语音通话，各位老师认为，最新的大模型能力，会对AI Agent有怎样的帮助呢？

周健：在我看来，今天的大型模型从输入输出的角度来讲，它们大致可以分为几个维度：纯文本处理、多模态处理，无论是图片输入还是生成图片和视频都还是off line 的。目前，在我看来，除了纯文本处理之外的其他两类模型在实际应用中还不太成熟。因为我们的服务流程是在企业环境中，对准确率有很高的要求。现在的问题仍然是，AI必须达到一个阈值，通用性AI如果没有达到那个阈值，就无法在实际中使用。当然，作为娱乐是可以的，但如果想要在端到端的流程中使用很难。我们目前只采用了纯文本模型，客户一定会要求我们支持，我们会支持一下。但对于主流产品，我们完全不接触，我们心中有一个标准，我们认为在某个点上，这个模型可能对我们有用，我们有相应的数据集。如果真的发展到那个水平，我们就会开始研发，但在那之前，我们不会进行研发投入。

李博杰：您觉得到什么时候到真人的水平，还远吗？

周健：我认为这个问题本身可能不值得去解决。看看Adept AI已经融资3.5亿美元，从商业角度来说，如果投资1亿美元就能做出来，那自然可行。但如果需要投入10亿美元，我们为什么还要去解决这个问题呢？特别是当我们预见GUI界面可能会消失的情况下。这是一个过渡性的问题。实际上，我更看好的是另一个方向：到明年年底，端侧模型很可能达到GPT-4的水平。届时，手机APP的形态会发生融合，这才是我愿意押注的方向。

李博杰：您说端侧3B的模型。

周健：现在是通义千问的72B，在中文上已经有4的水平了，再隔12个月，7B也不奇怪。

孙志明：我们做Agent平台，并持续关注前沿技术。技术发展日新月异，我们每天都能在行业中感受到变化。这些技术在实际场景中的应用，尤其是在特定环境下，面临许多挑战和技术上的限制，这些问题也困扰着AI Agent领域。随着端侧模型的出现，我认为在AI Agent市场中，这可能是一个类似于iPhone时刻的转折点。

目前，我们为企业提供定制化需求，从创业者的角度来看，项目的推进速度相当缓慢。早期的RPA技术追求的是什么样进步？三个月前我们能感知到什么？我们现在更多地专注于开发自己的垂直模型。此外，还有模型的训练，这些模型的训练效果并不逊色于大型模型供应商提供的产品。在特定的环境下，客户更倾向于选择我们的解决方案。大型模型厂商发布的新闻，在实际场景中，从商业化的角度来看，和技术如何结合？

针对金融、HR等垂直领域的Agent应用

李博杰：您觉得现在RPA工具，您公司的两个产品，能做到比70%以上的真人还准确的操作率吗？

孙志明：在特定任务领域，我们确实已经能达到这个水平。但对于复杂任务，还存在挑战。我们面临的一个主要问题是训练成本过高，即便我们想大规模采购GPU芯片来提升算力，在当前环境下也是力不从心。

AI Agent：从学术概念到增长驱动工具

从左到右依次是周健、孙志明、李博杰

孙林君：最新成果肯定是有促进作用。首先，大型模型被视为智能大脑，它们非常强大，知道如何执行任务。但当你要求它们执行时，它们可能会告诉你需要分成十二步来完成，但实际上它们并不能直接操作。对于人类的要求来讲，我们希望更进一步，只需下达一个指令或说一句话，事情就能完成。

接下来该如何行动？我们看到OpenAI的发布会上，有令人印象深刻的演示，展示了大型模型如何调用接口来完成任务。这种效果非常好，但在真实场景中，开发接口的成本非常高，有时接口甚至不存在。例如，如果是一个人，看到界面就知道如何操作，只需使用鼠标和键盘就能完成任务，无需调用接口。如果将Agent视为一个人，是否可以相似的方式直接操作电脑来完成任务？

我们注意到Claude 3.5的成果，每个动作都会截取一张图，分析图像上的内容，决定下一步动作，然后输入并点击以完成动作。实际上，我们的产品在去年8月份就已经具备了这种能力。当然OpenAI的影响力非常大，它使用纯粹的大型模型能力，速度可能会偏慢，有时会出现卡顿，但证明了大型模型具备了这种能力，即能力涌现。这包括任务分解能力、自动生成代码能力和推理能力。随着多模态技术的发展越来越成熟，你会发现它们能轻松完成每个页面上当前的动作，并导致下一个结果。基于此，这项技术在人机交互上将是一个巨大的突破。

大型模型不是一种产品，客户购买了大型模型后发现，在实际使用时需要许多外围功能的配合，才能真正发挥产品的作用。这些外围功能的配合需要许多能力的开发，将其整合成一个为我们所用的智能化产品，这是许多创业公司能够做的有价值的事情。因此，在这两个因素的推动下，智能体目前处于一个非常火热的状态。

李博杰：我追问一个技术问题，您认为纯视觉方案是指仅通过图像识别来执行操作，还是指识别图像中的具体元素，将其内部代码提取出来进行操作？

孙林君：我介绍一下我们的理解，不代表主流。这项技术涉及在浏览器上安装一个插件，用于解析浏览器的源代码，识别界面上的各种元素，例如搜索框、输入框、对话区域、表格下载区域等高级对象。在提取出这些对象之后，如果我想预订酒店，系统会找到这一步骤应该操作的元素，并最终完成整个流程。

然而，如果涉及到SIS客户端，情况就不同了。比如要解析一个高级对象，而我们在编写代码时采用最普通的方式，用二进制的方式来解析，实际上是无法实现的。在这方面，我们的理解有所不同。RPA的一个优势在于，几乎所有的动作都由操作系统的组件完成，相当于我们有了积木块，这些积木块是原子化的操作能力。如果我们让大型模型掌握了使用RPA的能力，并结合任务拆解和推理能力，它就可以完成任务。在我们的方案中，我们把大型模型之外的一些能力集成进来，形成一个自主智能体的产品，而不是直接使用大型模型的纯原生能力，这个效果会更好。

AI Agent：从学术概念到增长驱动工具

上图为孙林君

胡一川：当前模型排行榜上的最高分数是20.7分，与人类的75分相比，差距显著。这里存在一个核心问题：尽管人类操作UI依赖于视觉，但目前的模型在这一点上存在一个主要缺陷。为了通过视觉方式操作UI，模型必须精确地输出它想要操作的元素的坐标。这个任务的难度相当于让一个大型语言模型识别出"strawberry"中有多少个字母“R”——模型的原理决定了它在这方面的表现会非常有限。当模型接收到一张截图时，它并不具备准确找到目标元素坐标的能力。依赖当前的技术方案，这个问题仍存在明显缺陷。即使拥有大量数据和更强的泛化能力，模型在坐标定位上的准确率也难以达到90%，更不可能接近99%。

纯视觉方案虽然模拟人类的视觉处理，但它存在缺陷。如果把RPA和工程化的方法结合起来，一定会有所帮助。例如，RPA本身能够以几乎百分之百的准确率执行流程，并且可以精确定位界面上的任何元素。问题在于，如何把这种输入和输出在大模型的框架下，无论是在训练阶段还是推理阶段都能加进去，这是我们接下来需要研究的课题。如果这个难题能够得到突破，它一定会给整个行业带来巨大的帮助。

李博杰：刚才提到这么多大模型的进展，好多创业者都有一样的担心，大模型会不会哪天突然进步一大步，原来做了很多工程优化就白费了。

周健：我们在创业初期的时候，也十分担心这件事情。我记得GPT-4发布时，我凌晨3点才下飞机，收到了一大堆消息，问我该怎么办。我觉得AI非常有意思，它有点像文艺复兴时期，你会思考到底是什么。我一直在强调专家支持或私域数据的重要性，为什么这么说呢？

大型模型的原理有点像它背下了图书馆里一百万本书的内容，但一个人即使背下了一百万本书，也未必能成为哲学专家。本质上，我们每个人都有自己的信念，关于什么是真实的，这也是一个结构。很多时候所谓的反思，并不是因为事实变了，而是因为我们的信念变了。在这个意义上，这部分的沉淀以及它与已有的私域数据的结合是非常重要的。有些数据并不在互联网上，比如薪酬数据。显然，一个HR在看简历时，会根据经验判断应该出多少钱，这里面有一种内部知识。至少在现有的大型模型中，是无法吸收这种知识的。从纯粹的人类所谓的隐性知识的角度来看，我们其实是可以吸收的。至于是否一定要使用大型模型，这还有待商榷，除非有新的架构，还有成本的问题。在人类历史上，从未发生过这种事情，即使是半导体芯片也没有发生过这种事情。我们还是需要找到自己的边界，找到自己的竞争优势，或者说它的成本模型决定了它不会这么做。这是一个很好差异化的点。

AI Agent：从学术概念到增长驱动工具

上图为李博杰

李博杰：如果是在特定领域的场景中，你提到有一些领域数据和专有知识。对此，您认为是采用Prompt的方式更好，还是使用RAG？应该选择哪种方式？

周健：那些都不对。我们自己内部有这样一个模块，我还没有很好的能够说出，领域模型，世界模型，时空模型，我现在还在找那个词，但是本身既不是知识图谱，也不是RAG。

李博杰：希望周老师给我们发布出一篇诺奖级的成果。

孙志明：我从事人工智能的第一天起，我就在思考AGI会带来怎样的变革。过去两年里，技术的迭代速度超出了我的想象。今年年初发布的Sora，去年年底时我们认为生成视频还需要三年时间。在我看来，生成式人工智能是通往AGI的过渡性产物。无论是芯片、算力还是能力问题，尽管技术迭代速度很快，这种技术迭代速度在架构体系上实现的逻辑是必然的。我们不必过于担心，因为技术的迭代，即便带来颠覆，也是在原有基础上的颠覆。作为创业者，我们不需要有这样的焦虑，但需要有这样的思考。

现在，我们正处于AI时代，所有的逻辑关系和运作逻辑都经历了根本性的转变。从市场的角度来看，技术迭代的速度与市场客户的认知能力之间存在着显著的差距。从这个角度来看，我们不需要过分担心GPT-3.5是否会取代RPA，图像识别能力的提升RPA是否会被淘汰。在这个过程中，可能会出现更好的解决方案，这正是我的思考方式。

孙林君：如果我们观察股票，你把时间刻度缩放得很密集时，趋势会显得特别明显，几乎变成了一条直线。但当你放大时间刻度，你会发现它变成了一条极其曲折的曲线。在现实生活中也是如此，如果你理想化地认为一旦通用技术出现，所有其他事物都会失去意义和价值。但实际上，在技术落地的过程中，会遇到许多困难和需要克服的痛点，现实是非常骨感的。

当然，我们并不是说通用人工智能时代不会来临，它一定会到来，只是会在未来的某个时刻。一些社会学家研究，未来可能只剩下服务业这一种职业，所有的行业都将被颠覆。在通往这个目标的过程中，会有许多中间状态，而这些中间状态正是我们创业公司需要努力推进的。

回看我们所经历的阶段，最初的几十年，我们在算法上遇到了瓶颈，难以突破。今年的诺贝尔奖授予了当时研究BP神经网络的专家。现在我们进入了算力瓶颈的时代。再过几年，我们可能会发现，数据将成为新的瓶颈。为什么呢？公开数据可能已经被耗尽，大家都已经使用过，AI能生成的数据也都出来了，再继续就是过拟合了。有很多数据是行业的专有技术，它们构成了行业的壁垒。无论是在RPA还是在其他行业，我们结合Agent去做的事情，这个时候你的行业专knowhow非常有价值的。再加上人工智能技术的加持，能够发挥巨大的价值。因此，从这个角度来看，这个愿景并不可怕，我们一点也不害怕将来有一天会被替代。

李博杰：你刚才提到数据量不足的问题。现在，OpenAI的O1方法通过生成大量数据，并在实际环境中进行广泛交互。你认为这种方式是否有前景？

孙林君: 肯定是有希望。回顾AlphaGo时代，我们看到了它所起到的作用，但也发现它确实存在一些瓶颈。例如，强化学习并没有我们想象的那么鲁棒。另一方面，引入人类经验的模型是有上限的。这个上限要靠智能化技术自己去突破。如果要靠它自己去突破，这件事情还需要技术的进一步演进，仍然有很大的发展空间。

胡一川：我的观点更为乐观。随着底层模型能力的演进，它为创业者带来了更多的机会。我举两个例子来说明这一点。我们看到大模型的编程能力越来越强。在GPT-3.5和GPT-4发布的时候，去年GitHub Copilot就非常火爆，据说已经有数百万的付费用户。随着Claude 3.5编程能力的进一步提升，像Cursor这样的一个非常年轻的团队，开发出了面向开发者的AI开发工具。所以，模型作为一种底层能力，是不可能满足所有用户和工作需求的。因此，这为创业者提供了巨大的机会。

我再举一个例子，最近有一个美国高中生开发了一款名为“卡路里AI”的应用，利用多模态模型，可以对食物中包含的卡路里进行比较准确的判断。他开发了一个非常简单的应用，一夜之间就爆红了，据说现在每月有几十万美金的MRR（月度经常性收入），这是一个17岁高中生的杰作。大模型让AI真正平民化，这件事情正在实实在在地发生。

AI Agent：从学术概念到增长驱动工具

图为胡一川

AI Agent， To B还是ToC

李博杰：您觉得Agent这个事情，To C是不是一个好时机？未来会怎么样？

胡一川：我个人觉得To B、To C都有机会，只是To B不一样。在To B市场中，从生产力工具的角度来看，Agent如何能够降低成本、提高效率、增加收入是一个关键点。但这里的挑战在于，企业对稳定性和准确性的预期会更高，正如孙总前面提到的，你的边界必须非常清晰，并且必须在划定的边界内高质量地完成任务。这是To B市场既有机会又有挑战的地方。而To C市场的场景则更为多样，今天的大模型都有很大的机会去创造出一些颠覆性的应用。

孙林君：我们的产品也面向消费者（To C），但它采用的是KP（关键客户） To B的模式。使用RPA软件的用户很多是财务、会计、人力资源、客服等领域的专业人士，他们有很多重复性工作需要处理。他们会自发地在互联网上寻找能够满足这些需求的产品，并下载使用。优秀的产品应该是C、B同源的。现在人工智能发展如此强大，我们未来和系统的交互就是通过自然语言，交互门槛降低到了非常低的水平，对使用体验的要求也变得更高。在这个过程中，如何让产品具备让消费者感觉良好的特性，这是我们坚持不断完善和迭代社区版的一个重要原因。

对于To C来说，场景相对简单，但对B端场景来说会相对复杂。对于实在智能来说，我们选择的路线是瞄准目前看来不那么复杂的任务。我们不会一开始就做一个超级复杂、需要用到人类各个环节专家知识的任务，但对于那些日常工作中重复琐碎的事情，我们可以先解决这些问题。

孙志明：我们最初是从To C业务起家的。去年，我们的To C平台刚刚上线，即便没有进行推广，第一个月吸引了300万用户。我们的API每天消耗十万，一旦我开始收费，用户数量就会下降，这给我带来了不少困扰。去年年末，我决定暂停To C产品的开发。目前，我们每天仍有约一万用户。

我们是一个高度自定义化的智能代理平台，起步非常早。我们当时开发了很多插件，并且自己编写代码。上线的速度达到了我的预期，但我没有预料到算力消耗会如此之高。那时，我们每月的算力费用高达几百万。因此，我开始转型，专注于To B业务，我们称之为智能体云。

我们公司的使命，是让AI的力量成为每个人的天赋。我希望在将来的AGI时代，每个人都能拥有智能代理助理，这是我的设想。在技术层面，我关注模型的迭代和单个能力的发展，我会快速接入，将单个计算能力封装成特定的场景，面向教育类用户和第三类用户，满足他们实际的业务场景。因为这些用户根本不知道如何做智能体，他们对低代码没有概念，你只需要帮我解决问题就可以了。

周健：在我看来，B端和C端在商业模式上有本质的不同。从商业模式的角度来看，关键在于你为客户提供的价值是否值得他们愿意为之付出，以及成本。C端的一个主要问题是数字空间几乎没有摩擦力，用户切换成本几乎为零。在数字世界中，大厂是最大的玩家。从这个意义上说，我相信没有人会认为一个小公司能迅速地推出一个全民应用，这是不可能的。

我们必须选择一个特定的客群，这没有问题。但我们需要为这个客群提供足够大的价值。你的壁垒在哪里？你如何守住这个价值？从商业角度来看，这些都是必须考虑的问题。毕竟，我们毕竟是创业者，不是只想短期获利。我最终希望业务能够持续下去。在我看来，C端虽然有这种机会，但基本上需要结合线下。仅靠数字是不够的。

我知道一个朋友，他写了一些Prompt。他告诉我在深圳，他的壁垒是只有他这样的人才存在。他做美甲，卖给纽约的LGBT群体和直播的人。他有一些关系，让佛山的人加工。他的壁垒在于佛山的群体和纽约LGBT直播群体之间的“社会空洞”，这种联系是独特的，他可以利用这种联系。这就是构建这种商业模式的基础。如果你没有这样的禀赋，那就无法成功。你只是想在数字空间随便做一个C端应用，这是不可能的。

B端则不同，B端有客群，要有价值主张，要有信任，客户也愿意回报。关键在于，建立信任的过程很慢，信息传递过程中往往会失真。这是To B业务的难点，即使有了AI，这个难点依然存在。从某种意义上说，我们需要想办法缩短这个链条，否则在这个时代，迭代速度慢，风险很大。我们需要考虑如何将一些不那么核心的价值点外包出去。这是我们自己的思考。

AI Agent：从学术概念到增长驱动工具

从左到右依次是周健、孙志明、李博杰、孙林君、胡一川

Agent应用是否能形成微信式网络效应

李博杰：你刚才提到C端很难形成壁垒，但在Agent领域，有没有可能形成类似微信的网络效应，或者积累用户数据，从而建立壁垒？就像OpenAI之前提到的电影《Her》中，AI可以记录用户的所有记忆。如果用户切换到其他平台，这些记忆无法转移，这样的壁垒一下子就会变得非常高。

周健：你说的是一个状态，问题在于如何实现。没有办法直接跨越时空达到那个状态，仍然需要一步步积累数据，而这个过程是需要成本的。当然，壁垒是存在的，但如何跨越它是很大的难点。

李博杰：您认为，通用的应用创业公司是否很难成功？比如ChatGPT？

周健： C端几乎没有机会。

孙志明：可以在单侧模型上开发一些特定应用，聚焦于特定场景。

周健：如果能与物理设备绑定，就会有市场。

孙志明： C端还是存在一些机会的。

李博杰：您认为这样的设备机会是不是在苹果、华为这些大厂手中？

孙志明：不一定。硬件厂商有其独特优势，但在具体场景和用户特定需求上，他们的能力未必突出。尤其是在大模型支持下，手机具备这些底层能力，提供通用功能，大家都在发挥。可能会出现现象级产品，但这是一个三维的生态，不是单一的，很难一家独大。

李博杰：感谢各位老师的精彩见解。今天的讨论非常深入，我个人认为AI Agent领域确实有巨大潜力。OpenAI也将Agent视为O1之后的下一个重要方向。Agent可能会在多个层面上改变人类生活。在实现杀手级应用的道路上，各位老师提供了很多宝贵建议。希望在现有技术条件下，能够开发出既实用又有商业价值的AI Agent，让它走进千家万户，为大家的生活和工作创造更多价值。

文章来自于“硅星人Pro”，作者“PRO”。

AI Agent：从学术概念到增长驱动工具

关键词: AI , 智能体 , 人工智能 , Agent

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales

AI Agent：从学术概念到增长驱动工具

目录：

以下为对话实录：

AI Agent 到底是什么？

大模型能力对AI Agent 的助力

针对金融、HR等垂直领域的Agent应用

AI Agent， To B还是ToC

Agent应用是否能形成微信式网络效应