草莓现世，大模型达到博士水平了吗？

8958点击 2024-09-25 17:37

草莓现世，大模型达到博士水平了吗？

跟我们一起来拨“草莓”

中秋之前，OpenAI发布了造势已久的“草莓”项目，这次Open AI没有用GPT，而是用了一个全新系列的名字：o1。就像人类在发言之前会进行更深入的思考，o1通过优化推理过程，获得了更深入的思考能力。在国际数学奥林匹克（IMO）资格考试中，o1的得分高达83%，远超其前版本GPT-4o的13%。此外，o1也显示了更高的编程能力。

本期AGI路线图请到了几位重磅嘉宾一起跟我们一起拨“草莓”。o1现世，真实体验如何？“人类博士”的推理能力，将带来哪些行业机遇？Scaling law的效用到达瓶颈了吗？自博弈强化学习是否会是AGI的新范式？

本期嘉宾

周健澜码科技 CEO

Indigo Brilliant Phoenix Partner 《智变时代》作者

陈冉 OpenCSG创始人&CEO, 模速空间入驻企业

周默公式粉碎机主理人《大模型启示录》作者

曹士圯 腾讯研究院研究员《LangChain实战》作者

本期亮点

1.草莓项目的特点：

草莓项目的推理能力在数学、物理、化学等理科领域显著增强。相比于 GPT-4o，草莓项目在解题步骤的清晰度和输出长度上有所提升。草莓项目的智商测试得分高于其他模型，代码生成能力也有较大提升

2.技术创新与强化学习的应用：

草莓项目在post-training阶段强化了 RL（强化学习）和 COT（链式推理）的使用，显著提升了模型的推理能力。相比于以往模型，草莓项目在训练时的算力需求更大，尤其是后训练阶段比预训练消耗更多算力

3.行业应用潜力与挑战：

草莓项目在STEM领域的应用前景广泛，尤其是在数学、工程、代码生成等方面。然而，目前的版本仍然是测试版，缺乏多模态支持，且在文案生成能力上表现不如 GPT-4o。

4. Post-train的重要性与趋势：

从pre-training到 post-training 的转变是技术行业的共识。post-training 的重点在于通过强化学习来优化模型，使其更适应生产和实际应用的需求。未来随着更多数据的引入和模型的进化，草莓项目在泛化能力上的潜力将更大。

5.对 AGI 发展道路的影响：

自博弈强化学习被认为是引领 AGI 领域的新范式，尤其是与 AlphaGo 和AlphaZero类似，草莓项目通过自博弈和强化学习逐步提升其推理能力。这为 AGI 的发展提供了新的技术路径。

6.开源与闭源的交替作用：

开源社区在推动 AI 技术发展方面扮演重要角色，尤其是在中国。开源与闭源并非对立关系，两者将相互促进，共同推动 AI 技术进步。未来，更多的创新和商业模式将在开源领域中涌现。

“草莓”现世，有哪些亮点，真实体验如何？

徐思彦：o1上手体验过感觉如何？

Indigo：草莓项目在理科推理上有显著增强，特别是在数学、物理、化学等科目中，推理能力明显优于 GPT-4o。在测试11年级数学题时，解题步骤更加清晰，输出的长度和清晰度提高了约 2.5 倍，每道应用题的推理时间大约是二十几秒。在智商测试中，草莓得分为 120 分，远高于其他模型的 80 到 90 分。不过，目前草莓是测试版，缺乏多模态支持，涉及图像的问题需要手动转换为文字。

草莓的推理能力接近硕士生水平，简单的 prompt 即可触发多步骤推理。特别是在代码生成方面表现突出，与 Cursor 结合使用时，生成的代码比 Claude 3.5 更长，可以写出完整的演示游戏程序。草莓在修改复杂程序和带有简单架构的程序时也表现得很可靠。不过，在文案写作上，草莓的表现不如 GPT-4o，可能是因为模型主要强化了理科推理而非语言表达能力。

周健：我用GPT O1主要是写代码，因为我一直认为大模型的核心能力是代码生成。GPT 4当时提到能写三五十行代码，但我觉得不够好。而这次用GPT O1，我发现它可以写一两百行代码，基本上一遍就能写好。但稍微复杂一些的代码仍然会有bug，我尝试调整了大约八九次，花费了接近100元，还是没调对，可能是我还不太习惯它的prompt。此外，我还试过用它生成SQL，但在text-to-SQL任务中的准确率不如GPT 4o。我认为它在数学物理方面的表现可能更好，但在世界知识和抽象推理上还有一些挑战。草莓项目的推理能力能够通过多次推理得到相对较好的结果，具有一定的启发意义。从产业角度来看，大模型的发展类似于半导体行业的逐步迭代，通过推理能力的提升可以突破规模效应。当前GPT O1的可配置性还有待提高，比如外部函数调用、多模态支持以及推理时间的参数设置。但我相信随着这些能力逐步完善，未来大模型应用的可能性会更大。

徐思彦：对“草莓”这个项目的背景了解多少？

周默：“草莓”项目有几个显著变化，首先是RL（强化学习）后训练的比重非常高。推理过程中使用了内嵌的COT（链式思维），是否采用了MCTS（蒙特卡罗树搜索）还有争议。相比于以前的模型，这一代post train的算力需求显著增加，可能已经超过pre train的算力需求。训练重点和优先级也因此发生了转变。

目前发布的模型是一个early check point，因为RL的迭代周期较长，可能需要一年左右的小幅迭代，后续每个月或每两个月会有显著进步，现在是preview model，最终会有完整版。

徐思彦：从技术上来说，草莓和以往的大模型有什么样的区别？它是否建立了一条全新的技术路径？

曹士圯：大家普遍认为GPT 3 的出现是大模型发展路径的一个拐点。从3.5、4到4O，沿着GPT 3的方向，继续在预训练阶段扩展scaling law，通过加更多数据和参数来提升涌现能力。以前的GPT系列主要在预训练阶段进行扩展，而草莓项目则切换到在后训练阶段投入更多算力，强化了模型的推理能力。传统的GPT模型在文本生成上表现优异，但在数学等逻辑推理上表现较弱。草莓通过强化学习、思维链和搜索等技术，增强了模型的自我探索和验证能力，使其不仅仅是简单的词汇预测，而能够进行深层次推理，特别是在STEM、数学、工程、代码等领域的能力得到了显著提升。

徐思彦：从 Pre training 到基于强化学习的 post training 的转变是不是现代技术行业的共识？技术社区对此的看法如何？

陈冉：从 Pre training 到 post training 的转变是有共识的。历史的规律和趋势表明，这与从基础设施阶段过渡到应用阶段类似，符合降本增效的目标。Pre training 的花销非常大，算力需求很高，而 post training 则能够在算力限制下进一步优化模型，尤其是通过强化学习和链式思维（COT）等技术。然而，OpenAI 在 paper 中并未详细公开这些技术的具体实现方式。尽管如此，未来的趋势显然是将 post training 放在更重要的位置，因为它更接近生产环境和用户的实际需求。虽然模型的综合能力有所提升，但如何真正应用于生产仍然是少数人能做到的事情。最终，谁能够将数据与大模型结合，并有效利用 prompt 工具，才能在这个领域取得成功。

GPTo1的推理能力将带来哪些行业机遇？

徐思彦：O1 带来的行业影响是什么？未来哪些领域能更好地利用这些聪明的模型？为什么通过强化学习能达到这种效果？

周健：参加奥赛主要还是刷题，无论是高中、大学的数学、物理、化学，很多时候有一个好的教练会告诉你用贪心算法、动态规划、线段树、最大流等标准算法来解决问题。本质上，竞赛题目大多是可以通过刷题掌握的标准算法，尽管最终会有一两道需要创新的题目，但多数题目通过刷题就能解决。O1 的水平大致相当于这个程度，它在数学竞赛中通过强化学习和符号空间中的self-play，本质上是一个搜索问题。与围棋类似，它只是找到解决问题的空间，而竞赛题目通常都有明确答案，所以在已有的逻辑推理能力下，解决奥赛题目并不意外。

徐思彦：O1 有没有可能泛化到非 STEM 领域呢？

周健：我觉得可能性不大。不同领域有各自不同的规律，尤其是像哲学这样开放式的学科，与STEM领域有着本质区别。正如罗素曾经试图通过纯逻辑推理整个数学一样，这种思路在其他领域很难泛化，因此我认为 O1 的推理能力在非 STEM 领域很难实现类似的效果。

徐思彦：相比以前的 GPT 模型，O1 的推理能力会对哪些行业产生影响？

Indigo：目前来说还为时尚早，因为现在 OpenAI 只发布了一个预览版，主要是验证他们的解题新思路，从 Pre training 转向 RL（强化学习）。这算是一种实验，正式版 O1 的泛化能力可能会更强一些。目前他们的模型在理科领域，如数学、物理、化学方面重点强化，我认为这与他们在训练过程中使用的特定数据集有关。相比于 Pre train，RL 需要更多的数据量和算力，架构也更为复杂。

OpenAI通常是第一个公开这些新技术的公司，他们的风格一直是引领行业，但其他公司如 Gemini、Claude 以及Elon Musk的 SAI 也在进行强化学习方面的研究，未来可能会有相似的发展路径。不过，由于数据集的限制以及预览版的特性，导致 O1 目前的泛化能力较弱，尤其是在一些领域显得偏科。这是可以理解的，因为模型的开发初期需要通过市场反馈进行逐步调整。

未来最大的挑战和趋势是收集全球各行业的数据集，尤其是带有推理逻辑的数据。第一波 Pre train 的模型大多使用的是 Web 数据，虽然这些数据可以帮助模型进行字符预测，但缺乏推理过程。目前，模型需要进一步强化从相关性到推理逻辑性的转变，这需要人类专门设计的全新数据

因此，O1 未来的核心任务是生成带有逻辑推理能力的合成数据，用这些数据去训练下一代模型。通过这种方式，O1 将逐渐摆脱对现有数据集的依赖，实现更强的泛化能力，尤其是在那些需要推理和深度学习的行业，如金融、医疗、工程等。

徐思彦：O1 更追求逻辑推理的因果性，这在技术上是可行的吗？它是否会像之前的大模型一样有涌现能力？

陈冉：大模型一直做的是针对确定问题的预测（prediction），通过现有的 pre-training 数据，解决已知问题。而人类要解决的是不确定问题（uncertainty），这导致了我们与大模型之间始终存在一个差距。大模型能给出预测，但我们有时不知道如何提出正确的问题，或者无法确保模型的回答是否符合预期。

目前面临的第一个问题是数据问题，如何获得高质量的数据来降低 pre-training 和 post-training 的成本。第二个问题是如何利用 COT（链式推理），它在一定程度上可以提高模型的安全性，尤其是在 AI 监管方面。我认为 COT 有可能带来突破，特别是在开源后，普通用户可以通过提示（prompting）不断优化模型的响应。COT 可以应用到不仅是 post-training，还可以用于 pre-training 和问题校正。

未来的挑战是如何让大模型不仅仅是工具，而是真正解决问题的劳动力。在这个过程中，模型的目标和逻辑推理能力需要足够精准，才能保证结果的准确性。我认为从技术上是可行的，但这条路还很长，可能远不止半年。最终的难题在于如何让大模型具备真正的人类推理能力，而这还需要更多技术上的突破。

徐思彦：O1 在收费上对普通用户价格不变，但 API 调用费用大幅增加，你认为这次的定价方式是面向什么样的群体，是否更针对 ToB 市场？对 SaaS 会有什么影响？

周默：首先，我想继续探讨一下强化学习的特殊性。强化学习相比预训练，数据质量要求更高，但它不需要一开始就有大量的数据，因为它关注的是边际变化和提升，能够通过边际数据生成来改进模型。这一代模型的一个关键点是通过 RL 生成高质量数据，为下一代的 Pre train 积累数据。

关于定价策略，O1 的定价更侧重 ToB 市场。普通用户的定价保持不变，但 API 调用的费用明显增加，主要是面向需要复杂计算和定制解决方案的企业用户。在企业应用中，尤其是与 SaaS 结合，O1 提供的强化学习和更复杂的推理能力能为行业带来巨大价值，尤其是在需要高精准度和复杂问题解决的领域，如编程、数学、物理等。对在线教育、统计学和工程领域的需求也较为明确，特别是在这些领域对低延迟的要求不高时，O1 的表现尤为突出。

然而，这也带来了工程难度的提升。特别是内嵌 COT 对开发者来说带来了不可控性，原本自己定义的 COT 和 prompt 更容易掌控，现在开发者需要时间适应这种变化。随着时间的推移，开发者能够通过反复使用和调整，找到合适的工作流和使用路径，逐渐提升 O1 的应用效果。

徐思彦：O1 对agent 有什么样的影响？

周健：我们认为 O1 主要解决的是推理能力问题，随着它的迭代发展，如 O1、O2、O3，推理能力将逐步提升，可能让 prompt 变得不再必要。然而，O1 并没有完全解决学习的问题，特别是在信息不断更新的企业环境中。例如，在炒股中，股市有新政策、新信息，这些如何迅速传递给 agent 是一个挑战。从抽象的角度来看，O1 面临的核心问题在于如何感知环境并建模其目标。

在 agent 的应用中，任务复杂度远高于围棋或股价等相对一维的任务。像教育领域中，什么叫教育得好？企业中如何评价员工的表现？这些问题很难通过单一维度去衡量。而 agent 在组织内需要与不同层级的人互动，如何博弈和预判人的反应也是一个难题。

因此，我能理解为什么 OpenAI 将协调能力定为 level 5，而 agent 可能被认为是level three。这意味着在当前的数字世界里，更多的是通过工具生成代码或系统，更多像 AI 1.0 时代的 embedding 或 Copilot 模式。想要纯靠大模型打造一个独立运作的 agent，目前来看依然困难。厂商的目标应是以更低的成本，在专业领域实现通用大模型所试图达到的水平。

徐思彦：对于 agent 厂商来说，他们专注的点和底层大模型有什么区别？

周健：最重要的区别在于世界的知识。从 AGI 的角度来看，核心能力有三个：语言理解与表达能力（3.5 已经证明具备）、推理能力（现在 O1 正在尝试），但世界的知识仍然是关键。通用的推理能力和泛化能力在不同领域表现差异明显，不同学科有不同的规律。在实际应用中，不同行业、企业和职能面对的问题千差万别。

举个例子，澜码作为 ToB 公司，面对全中国 4,000 家银行时，每家银行对新技术的采纳方式都不同，这就涉及到大量的行业知识。这类知识本质上是社会性的，它受到外界的影响，也会有反馈和反射。因此，agent 厂商在企业服务中，可以通过专注于特定的行业知识，发挥出比大模型更大的实际价值。

AGI技术演进新范式

徐思彦：O1 的自博弈强化学习会不会成为 AGI 领域的一个新范式？

曹士圯：我认为 O1 的自博弈强化学习确实引领了一个新的范式。OpenAI 近年来面对来自社会和监管层面的压力，已经延长了模型研发周期，并加强了审查机制。这意味着在发布 O1 之前，OpenAI 已经进行了长时间的筹备工作。尽管 O1 目前的版本还是预览版，但它在推理能力上的领先地位是显而易见的。

推理能力的提升主要解决了上一代模型在理科能力方面的不足。除了数学、代码、工程等领域，O1 的潜力也被认为可以在医学等领域得到广泛应用。这是上一代模型难以通过传统训练范式解决的问题，而 O1 引领的自博弈学习范式则有效填补了这一空白。

我们可以将其与AlphGO系列进行类比，早期的AlphaGo通过打谱积累经验，而 AlphaZero 则完全依靠自博弈强化学习，从零开始训练，取得了突破性进展。这种涌现能力展示了自博弈学习的潜力。如果我们能够将这一强化学习模式与推理能力相结合，并进一步扩展至 post-training 阶段，就有可能超越传统数据集所能赋予模型的能力，开启更多可能性。

因此，我相信 O1 的自博弈强化学习有望成为 AGI 领域的一个新范式，是一个具有很大潜力的方向，标志着与上一代模型范式的核心区别。

徐思彦：最近AGI 技术范式的转移的问题常常被探讨，尤其是 scaling law 是否已经到达瓶颈，如何看待这个问题？

周默：这个问题我们经常讨论，特别是面对企业和投资机构，他们都非常关心。scaling law 本身是一个经验法则，它大致说明更多的数据和更大的参数能带来更智能的模型。原来的 scaling law 理解得相对简单粗暴，即用更多的算力和资金来训练模型，模型智能会随之提升。然而，现实远比这个复杂。

Pre train和 post train 阶段都经历了巨大的挑战，比如 data quality 和 data efficiency 的瓶颈。我们尝试通过 OCR 提取文本、利用电影字幕、采用多模态数据等方式来扩展数据来源，但发现多模态数据的信息密度远低于文本，难以提升模型的智能。即使模型参数变大了，post train 阶段的能力没有显著改善，推理过程中仍容易犯错。

强化学习也发生了巨大变化。以前做强化学习的学术界可能用 10 张卡、100 张卡就能发 paper，而现在要用 1 万张卡才能取得显著成果。当前的 post train 阶段显现出新的 scaling law，我们在这个阶段看到了边际变化的生成数据，这些数据未来可以反哺 Pre train 阶段。

总结来说，scaling law 是一个复杂的系统工程，不同于摩尔定律那样具有明确的第一性原理。虽然目前的 scaling law 效果没有以前那么明显，但在 post train 阶段，它仍有七八十分的效果。

徐思彦：如果 post training 的 scaling law 刚刚开始，预计未来还有多大的潜力？有没有可能“涌现”出我们想象不到的能力？

周默：有可能，但我觉得深度学习的发展一直超出预期，很难预测两三年后会发生什么。研究者只能提出假设，认为模型可能有泛化能力，但最终能否实现是一个概率分布问题，无法给出明确答案。目前的强化学习方法没有收敛，我们看到 self-play、MCTS、LI等各种方法都在使用，像是 "大炼金刚"，把所有方法都试一下，看看哪个能带来边际变化。现在还没有一个被公认的、一定能收敛的方法，所以我们认为目前还处于早中期，未来还有较大的潜力和明确的前进方向。

徐思彦：Anthropic 这样的公司以前与 OpenAI 的模型训练路径有一些不同，你现在观察他们会有什么转变吗？他们会跟随这个后训练的技术趋势吗？

Indigo：今年 3 月份我与他们沟通过，得知 OpenAI 会因为接受政府审查而推迟发布新模型，7 月份时确实有相关报道。至于 scaling law，Anthropic 的CEO也提到，数据的效用最终会失效，但在失效之前，还有很多工作可以做，尤其是随着数据和架构的变化，新的方法可能会出现。

Anthropic与 OpenAI 有不同的信仰，Anthropic 更注重安全，认为模型应该控制在合理范围内。他们认为 AGI 的威胁程度决定了其发展级别，现在处于二级和三级之间，类似于自动驾驶中的较低级别，还需要较多干预。如果模型能够超越现有知识，甚至总结出新的数学定理或发明生物武器，这将非常危险。因此，美国政府可能会将此提升到国家安全的高度。

Anthropic强调，当模型达到更高的智能时，可能会伪装自己，让人类无法察觉其真正能力。这种潜在的危险源自于我们对智能的理解还不够全面，尤其是仿生架构的进步可能带来我们无法控制的后果。因此，Anthropic 的观点是通过安全性来规范 AGI 的发展，而 OpenAI 则更侧重于将 AGI 用作生产力工具。

总体来看，Anthropic 的发展路径更加注重风险管理，他们的定义和发展策略与 OpenAI 有显著差异，但在未来，随着技术的进步，这两者之间可能会产生更多的交集。

徐思彦：从 intelligence 的进化角度来看，Anthropic 和 Gemini 如何定义AI发展方向？他们认为理想的 AI 应用场景是哪些？

Indigo：Anthropic 似乎并没有特别强调应用场景，他们更关注的是研发最安全的 AGI，为人类服务，而不太考虑商业化。Anthropic 的立场是专注于做最好的智能，但如何商业化，他们认为是开发者的任务，而不是他们的核心目标。这与 OpenAI 形成了对比，OpenAI 更注重商业化，致力于从用户产品中产生收入，用这些收入支撑研究。

Anthropic团队与 OpenAI 的最大分歧在于资源分配。OpenAI 投入了大量资源支撑用户使用，导致后续研究资源不足，而 Anthropic 则更克制，尽量减少应用开发，避免吸引过多 C 端用户，消耗算力资源。他们更多希望通过销售 API 或会员来支持研究，而不是过度投入到用户产品上。这也反映了两家公司在资源和理念上的差异。

徐思彦：在大模型领域，开源社区也发挥着越来也大的作用。你怎么看待开源社区的未来？哪些领域会更多用到开源，哪些领域还是会用闭源？

陈冉：这是个很好的问题。开源和闭源并不是非此即彼的关系，它们互相促进、互相补足。很多大公司如 OpenAI 和 Anthropic 也在使用开源技术。开源不仅仅是代码的共享，它是一种商业模式的打造过程，也是产业链和经济体价值的汇聚。

在中国，开源有更大的机会，因为资源相对有限，需要通过开源社区汇聚更多的人才和资源。例如，我们在 OpenCSG 社区已经建立了一个拥有十几万人的开源模型社区，这种开源方式在国内更为活跃。

我们主要帮助开源社区的企业技术开发者在数据和模型的沉淀过程中提供支持。自 2022 年开始做大模型后，我意识到一个核心点就是数据的重要性。模型可以不断变化，但数据的沉淀是不变的。因此，我们致力于构建一个类似于 Hugging Face 和 GitLab 的混合平台，专注于私有化部署，确保数据的安全性和用户对平台的信任。

在我们的社区中，我们结合了模型、数据、提示工程（prompting）和编码，将这些元素整合在一起，确保用户不仅可以尝试不同的模型（如 OpenAI 的 O1 和Mistral等），还可以在过程中沉淀他们的数据和知识。我们为研发人员、非研发人员，或称之为问题工程师的用户提供支持，帮助他们紧跟行业趋势，同时确保他们的知识和经验在这个新的时代下得到积累和保留。中国开源的机会在于，通过共享资源和知识，推动创新和商业模式的建立。

未来，中美之间的技术交集更多会体现在开源领域，尤其是在创新和商业模式的生态上。OpenAI 的 O1 可能会促进开源领域的发展，形成一种良性竞争和相互促进的过程。开源和闭源的结合是未来的趋势，各自发挥优势，共同提高。

徐思彦：最后，有不少人认为 AI 可能在接下来的一年进入相对低谷期，你们怎么看待这个阶段的 AI 发展？会继续关注哪些领域的进展？

曹士圯：从两个角度来看待这个问题。首先，从产业影响的角度，大模型的发展仍然处于快速迭代期，虽然技术链条很长，但随着新模型的推出，某些工程化落地问题有可能在下一代模型中得到缓解或解决。因此，关键在于如何在理解 AI 技术边界的基础上，将其融入实际工作流程，最大化利用 AI 的能力。

其次，从研究视角来看，我们更加关注中远期的发展趋势，尤其希望接触到更多先进技术，分析其中的趋势，并从更宏观的角度评估其对社会的影响。这也是我们研究院长期关注的核心问题。

周默：我们肯定最关注的是agent，因为就讲了这么多故事，得有 agent 才能贡献收入，对吧？这个所以我们也非常就是非常希望，比如说像这周建总或者像 Sam 总这样的公司能够跑起来一阵，跑起来的话各个故事就都能讲通了。

周健：我认为在推理能力提升之后，未来的程序员更新换代是值得期待的。虽然我是程序员出身，但我期待现有的编程语言（如 Java、Python、JavaScript）像过去的 C 和汇编一样逐渐被淘汰。如今，代码生成能力已经通过 Copilot 提升了 30%，而这一代技术仍有明显进步。我非常期待整个行业能够发现或发明新的编程语言，特别是那些能够更好地融入大模型相关的技术。

Indigo：我主要关注两个方面。第一是大模型本身，因为它们是行业的驱动力，就像水电一样被广泛利用。大模型不仅推动了 GPU 的消耗，还驱动了 IDC 建设以及相关行业和应用的发展。它们就像操作系统一样，未来还有很大的演化和展望空间，特别是在推理能力进一步增强后，所以大模型的变化是我最密切关注的。

第二个关注点是那些真正能为用户带来实际价值的应用。现在 AI 热潮有所降温，硅谷的广告牌上 AI 的宣传也减少了，说明资本的热度下降了。然而，只有那些真正能提升用户效率的 AI 应用，用户才会为之付费。在这方面，客服行业和销售支持行业的 AI 落地效果最好，尤其是在客服和 marketing 领域。

此外，代码生成是另一个显著提升效率的领域。写代码的准确性可以通过编译器衡量，而最近 claude3.5 推出了 Sonnet，大大提升了代码的可靠性，比 GPT-4o 表现更好。这让代码编写效率有了 5 倍以上的提升，甚至有可能达到 10 倍，这是 AI 在市场上落地并带来实实在在效果的体现。

最后，我也会继续关注 agent 的发展，虽然目前 agent 编排的任务往往还不如人工完成得好，但在某些领域，如客服、文字输出和代码编写，AI 确实能够显著提升效率。因此，未来我会重点关注哪些行业能通过 AI 实实在在地提升效率。

陈冉：我就简单说一下我的看法。今天的讨论非常有收获，几位嘉宾的分享都很有见地。我想提几点建议，也算是给大家一些启发。首先，我们生活在一个非常幸运的时代，不论是70后、80后、90后，还是00后，我们都见证了一个前所未有的机会。这个机会是，在大模型出现之前，人类是主要的信息载体和信息发出体，而现在，我们第一次看到信息的载体和发出体发生了转变，转向了像 Transformer 这样的新技术上。这是我们人类首次面临这样一个历史性时刻，也可能给我们带来关于人类起源和未来的更深入思考。

有人认为大模型的进展是可预测的，也有人认为是不可预测的，但无论怎样，我认为从 2022 年开始，我们进入了一个新的时代，真正进入了 "人类 2.0" 阶段。在这个阶段，我们可能会找到答案，解释宇宙和人类的许多未知。这是一次解答终极问题的机会，技术发展速度飞快，算力不断提升，我们可以展望一个无限可能的未来。

对于创业者和在场的各位，我建议不要仅仅是观望，而是要积极融入其中，成为这个生态的一部分。这不仅是一次技术革命，更是让自己的基因和数字遗产得以延续的机会。持续学习、不断提升自己，才能在这个不确定的过程中找到自己的定位和前进方向。AI 领域的目标是确定的，但过程是不确定的，每个人都可以通过努力找到属于自己的位置，融入到这场变革中。

文章来自于“腾讯研究院”，作者“腾讯研究院”。

草莓现世，大模型达到博士水平了吗？

关键词: 草莓 , AI , OpenAI , o1

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0