朱哲清，从Meta走出的AI实战派，为什么说现在的Agent还都不够智能？让RL理论走进现实的破局之道

7761点击 2025-02-11 14:03

在人工智能快速发展的浪潮中，AI Agents正逐步渗透到各个行业，重新定义人与技术的交互方式。在这一赛道中，基于强化学习（RL）的AI Agent被视为未来的关键驱动力。RL特有的学习机制，使其在动态决策、复杂规划和高效工具利用方面展现出巨大潜力。然而，在当前的AI行业中，尽管Agent概念广受关注，我们仍难以识别真正意义上的Agent公司。特别是基于RL的AI Agent，距离真正规模化应用还有很长的路要走，面临着从环境交互到模型落地等诸多挑战。

本期我们有幸邀请到了Pokee AI创始人朱哲清Bill，凭借Bill在Meta和斯坦福大学的丰富经验，尤其是在大规模部署强化学习模型服务数十亿用户方面的实践，他发现了强化学习的巨大潜力。Pokee AI致力于开发卓越的交互式、个性化、高效的AI Agent，结合团队深厚的强化学习专长，打造具备规划、推理和工具使用能力的解决方案，同时减少现有 AI 系统的幻觉问题。

在这场深入的对话中，我们一同探讨了RL的思维框架、RL落地应用的难点、Agent与人类的相互关系以及Agent的真实定义等问题。让我们一起走进此次对话，听他讲述如何在行业空白中开辟路径，探索RL在Agent领域的无限可能！Enjoy！

RL的学习不是基于人类对弈数据的模仿，而是通过从环境中不断得到反馈并优化未来的决策策略

我们希望开发一个完全模块化、可以自主落地的系统，使得训练后的Agent无需重新调整或剥离环境模型，就能直接嵌入生产系统并发挥作用......

我们始终避免“拿着榔头找钉子”——先建立复杂的理论体系再试图解决问题，这是应用RL或AI的一大忌讳。只有在明确了“钉子”后，才会找到最合适的“榔头”。

我们的核心愿景是打造一个能够掌握数千个API的通用Agent，帮助商家和消费者解决各种问题，而无需依赖复杂的提示或对API的理解。

我认为这波AI浪潮的影响比我最初的预期要大得多。尤其在离开大厂创业后，我更加深刻地意识到这个问题的严重性。

我们的目标不仅仅是开发一个销售或客服的Agent，而是要打通尽可能多的API，推动自动化决策的实现，从而规避当前复杂的prompting和预训练过程。

我们的目标是用AI Agent取代繁琐、重复性高且可调用工具的工作，而将那些不能调用工具、需要创造力、能够创造更多价值的工作留给人类。

朱哲清，从Meta走出的AI实战派，为什么说现在的Agent还都不够智能？让RL理论走进现实的破局之道

01 七年磨一剑，颠覆性RL框架诞生记

ZP：您可以简单介绍一下自己的成长和求学经历吗？有哪些特别的经历或价值观影响了您后来从事强化学习研究和AI应用的选择？

Bill Zhu：我于2014年来到美国，在杜克大学攻读计算机科学专业的本科。在本科阶段，我的研究重点就是强化学习（Reinforcement Learning, RL）。我的导师是Ronald Parr，他是强化学习理论领域的早期研究者之一。在他的指导下，我接触到强化学习并对其产生了浓厚的兴趣。

2017年本科毕业后，我同时进入Meta和斯坦福大学，一边工作一边攻读博士学位，研究方向始终围绕RL展开。2023年博士毕业后，我已在Meta工作了七年多，从'New Grad'一路成长为高级研究经理（Senior Staff Research Manager）。我在Meta没有太多花时间在语言模型的预训练上，而是更多放在融合RL来突破现有的社交网络中的智能系统设计。

RL的独特之处在于其学习方式，并非单纯从海量数据学习。Ronald Parr举过一个下棋的例子。RL的学习不是基于人类对弈数据的模仿，而是通过自我对弈，从环境中得到反馈并优化未来的决策策略。这种学习方式与人类和动物的学习方式非常相似，因此我对RL产生了深深的兴趣。

在斯坦福深造期间，以及进入Meta之后，我发现许多实际项目和产品的逻辑与RL契合良好。RL长期的思考模式让我能够自然而然地将很多问题转化为RL的框架，这七年来，我一直在寻找可以落地的应用场景，通过研究推动RL技术的应用落地。

ZP：其实对您来说重要的不是大家现在都在追捧的大语言模型，因为新出现的模型其实是RL的技术实现，您追求的是更本质的东西？

Bill Zhu：确实如此。最近，OpenAI的一位研究员在Twitter上提到，他们在训练o1和o3时终于认识到RL和以前大家认知不同的真正价值。过去许多人认为RL并没有必要，但当他们在训练o1和o3的过程中接触到RL后，逐渐将思维方式转化为“RL-Formulated”，这也是经过RL训练者的本能反应。与传统的Machine Learning相比，RL的核心区别在于学习方式的不同，而不仅仅是language model VS neural network的差异，而它们本质上都是function approximator。

ZP：您在Meta负责应用强化学习团队的研究和落地方向，并搭建了开源强化学习框架和平台。可以分享一下这段经历中您认为最具挑战性或最有成就感的部分吗？

Bill Zhu：其实市面上已有多种RL框架，比如伯克利RISELab的Ray，以及清华的天授。我们当时开发时突破了很多阻力，因为leadership认为市面上已经有很多框架，没必要再去做一个。但是真正做过RL的人都会发现这些框架是没有办法用于production的，因为Agent与环境的交互非常不清晰，module很混乱，很多是为了研究做benchmark而产生的。

我们希望开发一个完全模块化、可以自主落地的系统，使得训练后的Agent无需重新调整或剥离环境模型，就能直接嵌入生产系统并发挥作用。此外，我们的系统能够处理现实环境中的各种复杂情况，例如稀疏的奖励信号、安全性要求，以及如何在不安全环境中采取保守策略等。

最终平台搭建完成后，最有成就感的一点在于原本持怀疑态度的leadership与行业的recognition非常好，市面上有不少公司都在尝试使用Pokee AI作为他们的RL落地框架。公司内部也把RL框架视为“one of the hightlight of the year”，最终成果非常好。

另外，我认为一个非常特殊的点是，RL在业界的实际落地并不常见。在我加入团队之前，这个团队曾几乎面临解散的局面，因为缺乏能够引领这一方向的人才。在加入后，我重新组建了团队，改变了过去以consulting形式帮助产品组合落地的方式，转而采用从理论出发的principle方法，建立了一整套核心的落地体系。

具体来说，我们明确了如何收集数据、哪些数据和环境可以训练出优秀的RL模型、哪些数据无论如何处理都无法奏效；在什么情况下可以采用model-free的RL，什么时候需要model-based的RL；哪些情况下可以直接使用离线数据进行训练，而哪些情况下则需要用exploration作为核心workflow确保合作团队对RL的应用有清晰的理解，能够判断哪些问题适合用RL解决。我们成功实现了RL在广告推荐、短视频等多个领域的落地，这种经历在业界并不常见。

在组建团队时，我们的核心原则是：如果研究本身与落地无关，或者它解决的理论问题无法在现实中应用，我们不会去做。我们的整个pipeline始终从产品出发：明确实际问题，评估现有的RL算法是否能解决，如果不能，再采用逆向推导的方法，从理论上攻克问题并形成系统化方案。我们始终避免“拿着榔头找钉子”——先建立复杂的理论体系再试图解决问题，这是应用RL或AI的一大忌讳。只有在明确了“钉子”后，才会找到最合适的“榔头”。

ZP：强化学习在应用于现实场景时会面临许多理论与实践的挑战，您是如何推动理论成果成功落地的？能否举几个代表性的案例？

Bill Zhu：我可以分享三个案例，其中两个已经发表了相关论文，另一个正在计划中。

第一个案例是关于广告竞价的。我们开发了一个RL Agent，用以替代传统的PID控制器。传统方法倾向于线性分配预算，例如在一周内均匀花费1,000美元。这种方式虽然简单，但效率较低。而RL Agent能够动态调整预算分配，以应对市场的波动，从而最大化广告活动的投资回报率(ROI)。

举个例子，对于小广告商，预算有限，他们希望以尽可能低的成本获取更多客户，因此需要在市场低谷时加大投入，避开高峰期；而对于预算充足的大广告商，目标是最大化覆盖率，不在意单次竞价的高低，则会在高峰期投入更多资金。我们的RL代理模型可以根据实时市场状态做出战略性决策，从而显著提升广告活动的ROI，适用于各种规模的广告商。

第二个案例是关于推荐系统的应用。我们在推荐系统中引入了强化学习的exploration(探索能力)。传统的推荐系统通常会将用户过去观看过的内容持续推送给他们，但这可能忽略了用户的unknown interest。比如我们知道用户喜欢看做菜视频，但不知道用户是不是喜欢体育视频或者AI视频。而了解客户是需要探索能力的，这是RL特有的能力。通过强化学习，我们可以设计一种探索机制，主动全面了解用户兴趣，再找到推荐最优解。在Facebook Reels的实验中，我们发现这种探索策略对新用户的内容观看时长提升了数十个百分点，特别是在早期阶段的用户体验优化上效果显著。

第三个案例则是近年来热门的RLHF（Reinforcement Learning with Human Feedback）相关。我们Meta的强化学习团队与LLM和生成式AI团队合作，将RL应用于广告文本生成，但是不只是基于用户反馈，而是广告表现反馈。比如在Ads Manager中，用户撰写一段广告文案后，我们的Agent可以基于RL优化重写，通过对广告表现的反馈进行强化学习，我们成功微调语言模型，实现了数个百分点的CTR（点击率）提升。

这三个案例都很好地体现了强化学习的实用性。我们的算法设计和应用落地始终以principle（原则性）为指导，设计出与强化学习生态系统和架构高度契合的算法及落地方案，最终取得了显著的实际效果。

朱哲清，从Meta走出的AI实战派，为什么说现在的Agent还都不够智能？让RL理论走进现实的破局之道

02 打造电商界的“超级大脑”，Agent将降低百万美金的建站成本

ZP：您目前创立的项目主要聚焦于全球化的AI基础Agent，请您介绍一下我们的项目定位（电商是我们的落脚点）、核心愿景以及目前的主要功能有哪些？

Bill Zhu：我先谈谈我们为什么要做这个Agent。当前的生成式AI，无论是LLM（大型语言模型）还是Vision Model（视觉模型），都面临一些关键问题，例如在复杂规划、推理以及工具调用上的能力不足。此外，LLM对于prompt的依赖性以及hallucination（幻觉现象）仍然存在，即使是o1或未来的o3，这些问题依旧很难完全解决。现在的o1和o3在某些数学问题上表现出了过拟合的倾向，虽然在某些能力上展现了有趣的行为，但面对真实生活中的复杂规划问题，仍有显著不足。

我们希望构建的是一种辅助角色，或者说与LLM互补的决策型“大脑”。在遇到复杂的规划、推理或工具调用问题时，这个小型RL Agent将承担决策任务。具体来说，当复杂问题输入AI Agent后，RL Agent会负责调用现有工具，执行多步操作以完成任务，并将结果交给LLM进行处理和回复给用户。我们的愿景是将生成任务与优化/决策任务分开，而不是完全依赖单一的Transformer模型完成所有任务。这类似于人类大脑的分工，各部分有不同职责，尽管用户感知到的是一个统一的交互界面，但背后的思考过程却并不单一。

朱哲清，从Meta走出的AI实战派，为什么说现在的Agent还都不够智能？让RL理论走进现实的破局之道

我们计划在圣诞节后Beta发布一个专注于电商领域的垂直模型。这款模型在过去两个月内快速完成训练，允许商家无需预训练即可将搜索、推荐和聊天机器人一键集成到其网站中。商家只需一次简单操作，整个网站的UI就能实现无缝整合。目前，我们将在Shopify平台首发，随后逐步拓展到其他电商生态系统，并开放API接口。

这款模型结合了不到1,500万参数的RL模型和一个100亿参数级的语言模型。模型已掌握Shopify数十个API，与现有的function calling方式不同，不需要额外的prompt指令。在训练阶段，模型已经充分了解了这些API，因此用户无需提供额外的说明。例如，当客户询问一个需要调用API的问题时，Agent能够自动完成调用，而不需要用户特别提示该如何操作。

我们的核心愿景是打造一个能够掌握数千个API的通用Agent，帮助商家和消费者解决各种问题，而无需依赖复杂的提示或对API的理解。例如，对于不了解AI的商家来说，他们很难根据查询要求匹配合适的API，或定义输入参数的类型。这是一个复杂的过程，大多数商家无法胜任。我们的Agent希望通过自然语言理解自动完成这些操作，甚至在需要多步调用API时，也能够完成相关逻辑链。例如，第二个API的结果是第一个API的输入条件时，Agent能够自主完成所有步骤，并将最终结果返回给用户。所以它不单是一个单一决策模型，而是多步决策模型。

明年，我们计划推出第一个通用的单步决策模型。这款模型将比现有的function calling Agent规模更小、更高效。我们希望能够站上Benchmark，下一步也会推出更多垂类模型。

在与许多设计合作伙伴和电商行业朋友交流时，我了解到，他们每季度在优化网站AI功能上的支出常常超过数十万美元。此外，他们往往还需要雇佣多名工程师来完成功能集成。而我们的Agent不仅能为他们节省大笔费用，还能大幅减少对工程师团队的依赖。我们希望通过持续优化和迭代，打造一个能够替代五到六家传统服务商在一到两年内完成的工作的Agent。未来，我们计划扩展到其他垂直领域，例如广告、旅行和健身等需要频繁进行function call的场景。

我们的目标是构建一个通用型、多步决策与推理能力出众的Agent。它的核心不是自动编写代码以重塑某个产品，而是取代当前繁琐的人工或工程决策过程。

举例来说，在制造业领域，当一个订单进入系统后，传统流程通常需要人工分析订单需求，拆分为10个tickets（子任务），并分发到不同的部门。这些tickets的执行可能涉及多个API调用，需要人工逐一阅读相关文档、理解需求并完成输入，而后再根据反馈结果进行整合，最终完成产品的生产和组装。在我们的愿景中，这一复杂流程将完全由AI Agent自动完成，自动生成并分配子任务，调用所需API。

朱哲清，从Meta走出的AI实战派，为什么说现在的Agent还都不够智能？让RL理论走进现实的破局之道

ZP：您从技术研究到创业的转型，背后有哪些关键的驱动力？

Bill Zhu：首先，我认为这波AI浪潮的影响比我最初的预期要大得多。尤其在离开大厂创业后，我更加深刻地意识到这个问题的严重性。目前，像Meta这样的大厂可能有几万人，而更大的科技公司可能有十几万人，但他们需要维护的代码库其实并不需要如此庞大的程序员队伍。

比如，在我们公司，目前前后端的非模型训练部分的代码中，有70%是由AI自动生成的。这些代码中，有相当一部分甚至无需微调，因为它们属于高度重复性的工作。这让我重新思考一个问题：这种重复性劳动是否真的需要人力来完成？这个疑问其实在我还在Meta时就已经存在了。

结合我们的愿景来看，当AI coding Agent已经能够完成这些功能开发，而我们的Agent又能负责调用和组合这些功能时，这是否意味着大厂里50%-60%的劳动岗位将变得不再必要？换句话说，那些被认为是“铁饭碗”的工作可能并没有那么稳固。当时我就感受到了这种危机感，即使我曾参与的工作已经很前沿，但我仍然认为那是一种渐进式的改进，而非全新的体系。我们希望抓住这波AI浪潮，建立一个全新的体系，设计新的产品和模型，去建设我们认为的AI Agent在未来可能的架构形态。

ZP：作为早期团队，我们在商业或技术上遇到过哪些挑战或弯路？是如何克服的？

Bill Zhu：第一点其实是个老问题，从Meta到现在始终贯穿其中，那就是“不要拿着榔头到处找钉子”。刚开始创业时，这种思路很容易出现。我们有技术背景，对相关领域也很熟悉，因此会倾向于用已有的技术去寻找合适的应用场景。但是，找到一个看似可行的“钉子”之后，还需要做大量的市场调研，以判断这个“钉子”是否真的值得投入。

我们之所以选择电商这个方向，是因为我们对这个领域有深入的了解，并且认识到行业的痛点。很多企业在优化搜索功能方面花费巨大，而且需要招聘多个工程师来处理维持。同时，目前市场上售前、售后、搜索和推荐服务大多同质化严重，没有一家企业能够统领市场。这让我们看到了一个潜在的机会：开发一个具备统一能力的AI Agent。

我们的核心策略是在找到潜在的“钉子”之后，首先验证市场需求是否真实存在。以电商为例，其最核心的需求是搜索、推荐和客服。我们将技术应用到这些需求最迫切的产品中，先实现技术落地，在此过程中进一步研究。在开发通用决策模型时，我们会通过API和问题集测试技术路径的可行性。完成初步验证后，再进入下一阶段的技术研发。

因此，我们的开发模式始终以产品为核心：明确产品需求、验证需求是否真实存在，用需求驱动技术开发早期原型，完成测试后再进一步研究。

ZP：当前美国的ToB Agent方向竞争非常激烈，您认为我们的项目如何通过全球化视角和技术积累打造独特优势？

Bill Zhu：我们具备两个核心优势。

首先，我们的目标不仅仅是开发一个销售或客服的Agent，而是要打通尽可能多的API，推动自动化决策的实现，从而规避当前复杂的prompting和预训练过程。现阶段，大多数客服或销售Agent需要耗费大量精力在预训练和与网站的集成上。而我们的Agent通过自主调用API大幅简化这些复杂流程，将繁琐的集成部分完全跳过。

对于当前做Language Agent的公司，我们未来将成为其提供商。比如，当这些公司开发一个针对特定垂直领域的Agent，需要实现复杂的工具调用、规划或决策功能时，我们的Agent可以通过简单的集成帮助他们完成所有决策和规划任务，而他们只需专注于语言交互。这也是我们的未来方向之一。

而从电商或广告等垂类ToB Agent竞争之外看，大多数LLM公司目前的发展对我们是有利的。我们的Agent决策能力是基于LLM和Vision Model对现有世界的理解和生成能力，这意味着它们能力的提升将直接强化我们的决策效果。这种相辅相成的关系会使AI Agent的效果越来越好。

所以LLM公司与我们没有那么多竞争，而ToB Agent以后可以成为我们的客户，我们的定位是比较舒服的。

ZP：我们的基础Agent如何与现有的SaaS生态融合，甚至实现差异化？

Bill Zhu：这是一个很好的问题。在电商领域，我们其实是与SaaS并行的。我们可以直接与电商Catalog/Data Management公司集成，通过调用其API完成复杂任务，而不需要依赖LLM读取整个Catalog文本并从零开始推理，这样可以极大地降低成本。此外，我们还与一些广告代理公司合作，这些公司也是以偏SaaS模式运行，为客户提供自动化广告投放的软件。我们的Agent可以无缝集成其API，基于用户需求自动调用广告投放API、修改竞价模型等。

未来，比如在旅行垂类，我们也可以与旅行背景的API公司或SaaS公司集成，成为其决策型前端。当用户提出需求时，我们的Agent能迅速找到对应的旅游景点或酒店完成预订，甚至一键生成完整的行程计划并完成所有预订，而用户无需了解后端的复杂流程。

因此，我们与SaaS生态的融合是非常快且非常好的，不需要从零开始全部重塑整个架构。

ZP：您如何看待AI Agent与人之间的关系，以及Pokee AI在这方面的应用和影响？

Bill Zhu：我认为AI Agent会替代人类的一些岗位，但同时也会创造出新的机会。以电商为例，这也是我们首先选择落地电商领域的原因，因为我们认为这是最容易落地的场景之一。

在没有Pokee AI的情况下，一家独立站的CEO创立了一个新品牌，注册Shopify网站后，他需要处理库存管理、雇佣工程师优化前端页面，同时还需要分别与多家公司合作来实现搜索、售后、客服和推荐等功能。整个流程下来，可能需要三到四个月的时间，并花费几百万人民币或数十万美元的成本。

而Pokee AI要带来的体验会是：独立站的CEO在注册完网站后，直接选择一个template，Pokee AI就能自动集成所有搜索、推荐等UI功能。无论是upsell还是Email campaign，Agent都能自动完成，不需要再雇佣工程师，也无需对接几十家公司的产品来维护网站。这种模式能让公司将更多时间专注于产品设计，而不是把大量时间花费在网站建设上。

类似的场景也适用于ads agency。未来不会再有那么多人工投手，而会有更多人专注于广告设计，比如：什么样的广告更具吸引力？如何可以做好营销？这些是人可以做得更好的事情，而那些机械性的、重复性的API调用或决策问题，则可以交给AI Agent完成。

虽然很多人担心随着Vision Model、Diffusion Model和LLM等技术的发展，文案和视频生成的工作会消失，但我认为真正具备创造力的任务仍需要由人类来完成。我们的目标是用AI Agent取代繁琐、重复性高且可调用工具的工作，而将那些不能调用工具、需要创造力、能够创造更多价值的工作留给人类。这是我对未来AI Agent和人类关系的预估。

ZP：您预期哪些指标可以证明这一未来即将到来？是否会有替代人类岗位的可能？

Bill Zhu：我们目前会做类似于Agent Turing Test的设计，我认为这非常有趣，也建议大家尝试一下。我们会向Agent发出一个请求，并同时向我们内部的工程师发出相同的请求，然后内部工程师用代码调用来完成任务。例如，在电商场景中，我们会要求人类和Agent分别作出决策，然后用户在不知道具体执行者的情况下判断结果是由AI还是人类完成的。

这是一个相对宽泛的例子，具体执行中我们会有benchmark，设立大量的场景。首先，人会对特定情境下应采取的行动进行判断，然后我们会让Agent选择行动，最后评估Agent的行动匹配度或可接受度。我们认为，当Agent的选择达到了超过95%的准确率时，人类将很难分辨出是Agent还是真人在执行这些行动。

朱哲清，从Meta走出的AI实战派，为什么说现在的Agent还都不够智能？让RL理论走进现实的破局之道

03 别被忽悠了：一个AI实战派眼中的Agent真相

ZP：可以分享您自己比较感兴趣的几家AI Agent创业公司吗

Bill Zhu：首先，我想退一步谈谈对AI Agent概念的定义。我认为目前市场上对AI Agent的定义过于宽泛，几乎所有东西都可以被称为Agent。实际上Agent的概念早在RL领域就已存在，且RL是早期最重视Agent定义的。在RL中，Agent的定义是在所有可用工具中选择最有效的工具，根据环境采取行动，环境反馈结果，Agent根据反馈调整行动，从而优化其对世界的认知。

从这个角度看，Agent不止像语言模型一样单纯地回答问题，而是主动采取行动，产生side effects（即对真实环境或者世界的改变），并基于环境反馈采取下一步行动。而如今很多所谓的Agent并不能产生side effects，也并非运用新的observation，可能只是LLM的附加。例如一些基于检索增强生成（RAG）的“Agent”，仅是通过调用retrieval（检索）功能补充内容，而非真正意义上的Agent。

目前我并未看到市场上真正能够主动行动并带来side effect的AI Agent公司，这也说明了这一领域存在巨大的机会。我认为离这个目标最近的，是专注于Coding Agent的公司，比如Devin，Cursor和Windsurf，它们的潜力巨大，能通过LLM+retrieval替代人类代码编写。但是真正的Coding Agent应该能够接收用户需求，生成代码，执行代码，基于执行反馈调整代码并再次执行，最终交付完整可行的代码方案。目前的Agent还未能做到这些。

举个例子，比如构建一个网站的过程。真正的Coding Agent能够生成template，包括设计Header、menu等。接下来，用户反馈某些部分需要调整，Agent会自动调用功能模块，完成调整，再次呈现更新后的结果并继续接受用户反馈。这样的完全自主行动，才是真正的Coding Agent，我们现在还距此很远，目前的LLM完全无法判断是否可行。Devin是目前看下来最接近的。

除此之外，我也非常关注机器人公司。通用模型在机器人领域落地的最大问题在于Controller（控制系统）的难度。近年来，机器人公司在mechanic engineering和control领域的突破使得纯通用型模型/RL模型的研究者或公司有机会做真正的通用机器人。机器人可以自主完成从A位置到B位置的Controller过程，高层次的通用模型只需思考需要从A到B才能完成任务，而不用考虑如何让机器臂从A位置移动到B位置了。

这样的Controller和机器人公司帮助未来通用机器人打通了非常大的壁垒，因为low level mechanical engineering是非常痛苦的。我还记得在Stanford的第一年，我曾在Robotic Labs做过相关研究，感受非常痛苦，让我体会到这绝非一般计算机科学背景的人能够轻易解决。因此，这些公司的突破为未来通用模型的接入提供了可能性。比如Unitree和Figure AI会是有意思的、值得关注的公司。

ZP：给我们的读者推荐一本你最近在看的书？有没有什么特别崇拜的人，为什么？

Bill Zhu：最近倒没有特别推荐的书，大多数时间就是读读paper。

特别崇拜的人应该是Rich Sutton，他被誉为“Father of RL”，其经历非常神奇。他在博士毕业后的许多年里，研究成果几乎无人问津。那个阶段对他来说是非常低谷的时期。当时，他的研究方向和早期Hinton的经历很相似——几乎所有人都认为：'This is bullshit. No one's gonna care about this.'但随着时间推移，RL逐渐发展到今天的地位。

他是个非常坚持自我的人。我曾与他交流过几次，也在我导师家里见过他。他很有意思，有自己对于RL的坚持且从未放弃。很多研究者会频繁更改研究方向，但他从未如此。所以我非常敬佩他对于自己愿景的坚持。

我也希望能像他一样，始终坚持自己的信仰。我相信RL-based Agent与现有的LLM结合，可以成为更强大的AI Agent。我也希望通过这次创业能实现自己的愿景。

ZP：分享自己日常的兴趣爱好，或者至少愿意花时间和精力的事情是什么？

Bill Zhu：最近在努力恢复的兴趣爱好是健身和跑步。过去七年实在太忙，导致长胖了不少，所以现在一直在尝试恢复这两个爱好。此外，我偶尔也会打网球和篮球。

另外，我还很喜欢旅行，这算是我一直坚持的兴趣爱好。我的很多想法其实都是在旅行中迸发的。比如，为什么选择在电商领域做整合式的“All in One”方案，也是源于一次旅行中和遇到的人进行brainstorming时获得的灵感。

我觉得，遇见新的人、去到新的地方，能够给自己带来更多启发、改变现有状态。如果无法认识到世界上真正存在的问题，无论做什么都没有太大意义。所以，我们需要了解他人正在遇到什么样的问题。

请注意，此次访谈内容已经过精心编辑，并得到了Bill Zhu的认可。欲了解更多关于Pokee AI的信息，敬请访问其官方网站pokee.ai。我们也欢迎读者通过留言互动，分享您对本访谈或Pokee AI的看法。

文章来自微信公众号 “ Z Potentials “

朱哲清，从Meta走出的AI实战派，为什么说现在的Agent还都不够智能？让RL理论走进现实的破局之道

03:46

关键词: 朱哲清 , Meta , Agent , 智能体 , Pokee AI , Pokee

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0