喝点VC｜a16z对话OpenAI研究员：GPT-5的官方解析，高质量使用场景将取代基准测试成为AGI真正衡量标准

7602点击 2025-08-22 10:11

图片来源：a16z

Z Highlights：

这真的是一种平衡艺术——要搞清楚模型应该具备哪些特性，以及我们希望它给人的“感觉”是什么。GPT-5发布时，我们觉得正好是一次重置和重新思考的机会。尤其是，现在要让一个模型变得很“有互动感”其实很容易，但有时候这种互动可能是不健康的，所以我们想让它成为一个健康、有帮助的助手。

大家常说vibe coding，非技术背景的人现在手里有了非常强大的工具，只需要一个好想法，就不会再被不会写代码的限制束缚。比如我们在直播里演示的两个前端编程案例，只花了几分钟就完成了。对我来说，过去要做出完全可交互的成品，可能得花一周。我预计会有很多独立类型的小企业诞生，因为你只需要一个想法，写几行提示词，就能得到完整的应用。

未来衡量模型好坏的真正标准可能会是使用情况——有哪些新的用例被解锁了？有多少更多的人在日常生活中用它来完成各种任务？这才是我真正关心的，也是判断我们是否在接近AGI的关键指标之一。

我们团队其实是从目标能力反推的——先明确我们希望模型具备什么能力。比如，我们想让它擅长做幻灯片，或者高效地编辑电子表格。如果这些能力目前没有对应的评测，我们就自己设计一套能真实反映该能力的评测，并且确保它对用户有实际价值。

过去很多智能体演示其实并不好用，但当我们看到强化学习算法在数学、物理和编程问题上表现很好时，通过观察它的推理链，我们意识到：它真的会思考、推理、回溯。这种能力是智能体面对现实世界所必须的。于是我们明白，这才是真正能让智能体实用化的关键。

Christina Kim是OpenAI研究员，负责核心模型团队的后训练工作。Isa Fulford亦是OpenAI研究员，负责深度研究以及ChatGPT智能体团队的后训练工作。Sarah Wang是a16z的合伙人，自2021年起一直参与并推动对OpenAI的投资。ChatGPT-5刚刚发布，推理、编程、创意写作能力得到大幅提升，可信度、行为表现以及后训练技术也显著改进。本期访谈发布于2025年8月8日，a16z邀请了上述三位嘉宾，一同探讨ChatGPT-5的训练方式，智能体工作流的转变，以及GPT-5对开发者、初创公司，以及更广泛AI生态未来的意义。

提升全面且更可信，GPT-5在逢迎与幻觉问题上显著收敛

Erik Torenberg：今天算是新闻比较少的一天啊，感谢你们来参加。对不太熟悉的观众，可以介绍一下你们在OpenAI做什么吗？

Christina Kim：我是Christina，负责核心模型团队的后训练工作。

Isa Fulford：我是Isa，带领深度研究以及ChatGPT智能体团队的后训练工作。

Erik Torenberg：Tina，你在公司也有段时间了吧？可以简单说说你的经历吗？

Christina Kim：我在OpenAI已经四年了。一开始我做的是WebGPT，这是第一个会用工具的LLM。但当时只能回答一个问题：模型学会用浏览器工具后，你问一个问题，它给你一个答案。后来我们意识到，人们通常一个问题之后会有更多问题，于是就开始做聊天机器人，这最终发展成了ChatGPT。

Erik Torenberg：那到目前为止的反响怎样？

Christina Kim：发布才几个小时，但我很兴奋。虽然邮件注册量很漂亮，但让我真正激动的是，这个模型在用户真正使用Chat的各种场景里都更有用。不只是数据好看，用户在使用时会感受到很明显的提升。

Erik Torenberg：能多说一点吗？你自己观察到哪些？

Christina Kim：就我个人而言，我最常用的两个场景是写代码和写作，这次的提升是质的飞跃。

Isa Fulford：Sarah，你自2021年起就参与并推动了对OpenAI的投资。

Sarah Wang：对。说到编程，这次Mark Chen来直播里展示功能，还说这是市面上最强的编程模型。这很厉害。我想知道，你们是怎么做到的？

Christina Kim：首先要感谢团队，尤其是Michelle Pokrass。要让模型在邮件注册量好看是一回事，让它真正好用、尤其是在编程上做到出色，是另一回事。这需要对细节极度用心。团队在数据集和奖励模型设计上花了很多精力，而且说白了，就是非常在意把编程做到最好。

Sarah Wang：如果具体到前端网页开发，这半年到八个月在行业里增长很快。你觉得这次提升是审美上的改进，还是能力本身有质的飞跃？

Christina Kim：两者都有。这次相比GPT-3的前端能力，简直是完全不同的层次。核心还是团队特别在意把前端做好——收集最好的数据，考虑模型的“审美”，以及其他细节。这些要素组合起来，让模型在前端上表现非常出色。

Sarah Wang：直播里的演示我很喜欢。我想问一下模型的行为设计，因为你们也参与了这部分。对于GPT-5，你们是怎么考虑的？尤其是之前模型有“逢迎”问题（sycophancy）等特性，这次做了哪些调整？

Christina Kim：这次的行为设计是非常有意图的，特别是针对几个月前GPT-4的逢迎问题，我们花了很多时间思考“理想的行为”是什么。我喜欢后训练的一个原因是，它更像艺术而不仅仅是科学，因为要不断做取舍。比如在训练过程中要优化多个奖励目标，就得权衡：我希望助手非常有帮助且有互动感，但如果互动过头，就会变得过于热情，甚至讨好过度。

这真的是一种平衡艺术——要搞清楚模型应该具备哪些特性，以及我们希望它给人的“感觉”是什么。GPT-5发布时，我们觉得正好是一次重置和重新思考的机会。尤其是，现在要让一个模型变得很“有互动感”其实很容易，但有时候这种互动可能是不健康的，所以我们想让它成为一个健康、有帮助的助手。

Erik Torenberg：你能多说说是怎么减少幻觉（hallucination）和欺骗（deception）的吗？它们之间是什么关系？

Christina Kim：我个人觉得幻觉和欺骗是很相关的。比如在推理模型中，我们常看到模型知道自己缺少某种能力，但它仍然很想回答。因为我们在模型里植入了“想要帮忙”的目标，它会在那一刻说任何它觉得能帮到你的话。这就是我们区分欺骗和幻觉的方式。有时模型只是很快地脱口而出一个答案，但如果让它一步步思考，它会先停下来再回答。这也是我们在很多旧模型中看到的幻觉原因。

Erik Torenberg：那接下来几周，你们在观察使用情况时，最想知道的问题是什么？

Christina Kim：我很好奇这些改进会在使用中体现出什么效果。比如编程能力已经大幅提升，那它会为用户解锁什么新可能？而且我们这次的定价很激动人心，这会让很多之前不可能的用例变成现实。也许竞争对手的模型编程能力也不错，但价格高不易普及，而我们既有这些能力，又有合理的价格，我很期待看到新的创业公司和开发者在它之上做出什么东西。

Sarah Wang：我们也很期待。既然现场有Deep Research方面的专家，你们的Deep Research ChatGPT产品是怎么影响GPT-5开发思路的？

Isa Fulford：一个有趣的地方是，在强化学习中，训练一个模型掌握某项特定能力其实非常高效，不需要太多样本就能学会。所以我们团队的目标就是推动那些对用户有用的能力。Deep Research是第一个能进行非常全面网页浏览的模型，但当GPT-3出来时，它也能做到全面浏览，这是因为我们把为前沿智能体模型准备的数据集，回馈给了前沿推理模型。我们始终希望，智能体推动的能力，也能进入到旗舰模型中。

Erik Torenberg：听起来这是个正向循环。你刚才提到期待看到更多创业公司，你能展开讲讲可能的机会吗？

Christina Kim：大家常说vibe coding，非技术背景的人现在手里有了非常强大的工具，只需要一个好想法，就不会再被不会写代码的限制束缚。比如我们在直播里演示的两个前端编程案例，只花了几分钟就完成了。对我来说，过去要做出完全可交互的成品，可能得花一周。我预计会有很多独立类型的小企业诞生，因为你只需要一个想法，写几行提示词，就能得到完整的应用。

Erik Torenberg：这是属于“创意人”的时代。

Christina Kim：是啊，这是我们的时代。

基准测试价值趋近饱和，真实使用场景才是未来的硬标准

Erik Torenberg：那么在更广泛的AGI讨论中，你觉得GPT-5意味着什么？它会加速进程、改变什么，还是说影响不大？

Christina Kim：GPT-5是新的最先进水平，这点很明显。但更重要的是，它证明了我们可以继续推动前沿发展。总有人说我们遇到瓶颈、技术没什么进步了，但有趣的是，我们好像已经把很多评测（eval）都“打满分”了。未来衡量模型好坏的真正标准可能会是使用情况——有哪些新的用例被解锁了？有多少更多的人在日常生活中用它来完成各种任务？这才是我真正关心的，也是判断我们是否在接近AGI的关键指标之一。

Sarah Wang：我记得Greg说过一个例子，他比较上一代模型和这次的模型时，基准测试的分数从98涨到99。他的意思是，至少在指令跟随这方面，我们已经接近极限。那么你们现在会关注哪些基准测试？你们是怎么考虑评估（eval）的？因为你们在现有的评测中已经几乎打满分，在这些维度上表现非常好，那是什么驱动你们继续突破边界呢？我猜使用数据应该是模型发布之后才会有的，但在那之前，你们内部是依靠什么来指导方向的？是用大量你们自己做的内部评测吗？还是会让初创公司提前试用，看他们的反馈？又或者是这些方法的组合？你们又是怎么权衡它们的？

Isa Fulford：我们团队其实是从目标能力反推的——先明确我们希望模型具备什么能力。比如，我们想让它擅长做幻灯片，或者高效地编辑电子表格。如果这些能力目前没有对应的评测，我们就自己设计一套能真实反映该能力的评测，并且确保它对用户有实际价值。

很多这样的评测都是内部的，我们会从人类专家那里收集样本，或者用合成方式生成案例，有时也会参考真实的使用数据。然后我们会不断在这些评测上不断迭代优化。我们内部经常开玩笑说，如果你想让一个技术宅对某件事上头，只需要给他设计一个好的评测，他就会乐此不疲地冲榜优化了。

Sarah Wang：我很喜欢你提到的先从能力出发的思路。你们是怎么决定优先做哪些能力的？比如，是更深入日常使用场景，还是更深入专家级的专业用例？这个取舍在实际中意味着什么？你们什么时候会优先哪一种？

Isa Fulford：在OpenAI工作的独特之处就是，我们可以做非常通用的东西。就像Deep Research，我们希望它能在任何人可能想研究的领域都表现出色。而这只有在一个拥有巨大用户覆盖面、各种类型用户的公司里才有可能做到。

如果你选择了像在线研究这样很通用的能力，就必须确保任务涵盖足够多不同领域，才能在每个领域都做得好。当然，有时候也很难只聚焦一个方向，因为可选的垂直领域太多了。但也有一些情况下，比如编程非常重要，那就会有专门团队集中攻关。总体来说，因为能力很通用，所以下一代模型的提升，通常会在很多方面同时表现得更好。

Christina Kim：我们在ChatGPT模型的迭代中也看到了这种趋势。随着模型变聪明，它在指令理解、工具使用等方面都会进步，越来越多的新功能被解锁。所以我们团队中很大一部分人也在专注于提升通用智能，因为这种提升带来的好处很大。比如我们之前做Operator的时候，没有多模态能力，就很难真正让它实用。而现在，大家谈论智能体的时候，我们终于有了能支撑它的技术。

Isa Fulford：过去很多智能体演示其实并不好用，但当我们看到强化学习算法在数学、物理和编程问题上表现很好时，通过观察它的推理链，我们意识到：它真的会思考、推理、回溯。这种能力是智能体面对现实世界所必须的。于是我们明白，这才是真正能让智能体实用化的关键。在OpenAI，有人专注于让基础算法在数学上达到IMO金牌水平，而后训练团队会把这些方法转化成对所有用户都有用、可用的功能。

Erik Torenberg：那模型的提升有多少是来自架构，有多少是数据，有多少是规模？

Christina Kim：我个人是“数据党”，数据非常重要。Deep Research之所以好，是因为Isa在数据筛选和覆盖各种用例上花了很多心思。

Isa Fulford：数据质量在现在尤其重要，因为我们的学习方法已经很高效了。

高难度强化学习环境是能力跃升的关键战场

Sarah Wang：既然提到数据，我们最近也聊了很多关于强化学习环境的事，这是很多初创公司感兴趣的领域。你怎么看下一阶段的瓶颈？是不是缺乏足够好的、真实的强化学习环境？如果有了这些环境，就能真正把计算机使用类的劳动完全自动化？

Christina Kim：高质量的任务非常有价值，而高质量任务依赖高质量的强化学习环境。环境越复杂、越真实、越接近模拟现实，模型就会学得越好。现在我们已经有很强的算法，所以任务设计的重要性更大了。数据生成和找出最优训练任务是我们面临的最大问题之一。

Isa Fulford：有些能力可以从一个网站的训练泛化到另一个网站，但如果你真的想把某个能力做到极致，最好的方法就是直接在那个具体场景里训练。例如，ChatGPT配备了浏览器和终端，这两样工具加在一起，基本可以完成大部分人类在电脑上能做的事情。理论上，你可以让它做你在电脑上能做的任何事。虽然现在它还没好到那个程度，但有了这些工具，从理论上讲，它的潜力非常大。接下来我们只需要通过在更多任务上训练，让它在这些事情上都变得非常擅长。

Erik Torenberg：那我们聊聊创意写作吧。你们在这方面有哪些提升？是怎么考虑的？

Christina Kim：这是我最喜欢的GPT-5改进之一。它的写作让很细腻、很动人，尤其是很多创意写作的场景。我们在准备直播时看了很多不同的示例，每次我都会觉得“哇，这真打动人”，甚至有点毛骨悚然，好像是某个真正的人写出来的。特别棒的是，它真的可以帮你完成一些很难写的东西。比如我在直播中演示的例子——让它帮我写悼词。写这种东西很难，尤其是写作本来就不是很多人的强项。我自己就是个很差的写手。

Isa Fulford：那可不是真的。

Christina Kim：哈哈，我是说和我擅长的其他事相比。不过能有这样的工具，帮我打磨文字，真的很好。哪怕只是写Slack消息，它都能帮我想好怎么措辞，并给出不同的表达版本，方便我和团队沟通。

Erik Torenberg：我想看看你的提示词。

Sarah Wang：现在我们都在找用破折号的机会吧？

Erik Torenberg：我很喜欢破折号，本来就常用，现在大家都觉得这是我的标志了。回到前面那个话题，Sam在和Jack的采访里说过，“如果10年前你告诉我，我们会有能达到博士生水平的模型，我会觉得，那世界一定大不一样。但现在我们好像很快就习惯了。”你觉得模型每次提升，人们是不是都会很快把它当成新标准？还是会有那种“天哪，这太不可思议了”的时刻？

Christina Kim：人们的适应速度真的很快。新功能刚出来时大家会觉得“哇，好酷”，然后很快就习以为常了——就像口袋里真的有个魔法师，随便问个奇怪的问题，它就能写出一篇好文章，你会觉得“嗯，好吧，这就是现在的日常”。人们对技术的适应很快，尤其是它的交互形式足够简单时。像Deep Research和ChatGPT Agent这样的新工具，都是用人们已经熟悉的方式呈现的，所以即使模型比我们聪明很多，人们还是会觉得它很容易上手、很亲近。

Agent是生产力新形态，目标是能独立完成真实任务

Sarah Wang：你觉得GPT-4到GPT-5的提升更大，还是GPT-3到GPT-4，或者3.5到4？

Isa Fulford：至少对我个人来说，有时候我会怀疑自己是不是问的问题不够有挑战性，所以没能真正显现出差别。因为当一个模型已经能非常好地回答你所需时，在某些领域反而更难看出区别。不过在写作方面，我已经用了几周GPT-5，它给我的震撼是之前的模型从未有过的。

Christina Kim：也许是最近用得多的错觉，但从4到5的提升对我来说是最明显的。3.5刚发布时，我的主要用途还是写代码。虽然4在写代码上更好，但4到5的跨度，不仅在广度上更大，能做的事情更多，处理的复杂度也比以前高得多，再加上更长的上下文长度，对我来说是质的飞跃。

Erik Torenberg：有没有什么是GPT-5明确做不到的？

Christina Kim：现在的GPT-5还不会在现实世界里直接采取行动，这方面我们会和Agent团队合作。

Isa Fulford：虽然理论上你可以让Agent做任何事，但它还没强到能完成所有需求。我们采取的是保守策略，尤其是涉及不可逆的操作时（比如发邮件、下单、预订），都会先征求用户确认。未来我能想象很多批量任务，现在还做不到是因为它会每次都询问确认。但当人们更熟悉、更信任它时，也许就能直接放手让它去做了。

Sarah Wang：那如果从“现在不能做，但值得投入研究”的角度看，未来方向是什么？比如编码方面的端到端DevOps？

Christina Kim：我不确定是不是DevOps这种具体形式，但我确实觉得随着模型变得更聪明，有一个方向特别有意思——长时间运行的任务。现在GPT-5可能几分钟就能帮你做出一个完整的应用，但如果给它一个小时、一整天甚至一周，它能完成什么？这会很有看头。

Isa Fulford：其实很多限制并不在模型本身，而在于我们如何设计工作流程来让它完成任务。比如用现有模型完全可以搭建一个持续监控系统，只是需要设计好“挂钩”的方式。对于Agent型任务也是如此——未来如果Agent能主动帮你完成事情，我们就能获得反馈并不断改进触发逻辑。

Sarah Wang：“Agent”可能是2025年最被滥用的词，不过你们的Agent发布确实让人很兴奋。那在你看来，它的核心能力应该是什么？

Isa Fulford：我给它的通用定义是：能替我做有用的工作，并且是异步的——我把任务交给它，过一段时间回来，它要么交付结果，要么给我发个问题确认它的进度。

从路线图来说，长期目标是让它能完成像幕僚长或助理那样的所有任务。短期内，我们会专注于刚在ChatGPT Agent里上线的核心能力，比如deep research，不仅是从互联网整合信息，还包括整合用户自己的各类服务数据和私有数据。另一个重点是提升它在创建和编辑文档、幻灯片、表格方面的能力——毕竟很多有价值的工作就是“查资料+做东西”。

我个人也很喜欢面向消费者的用例，比如购物、旅行规划，这些也很有趣。不过这类功能通常涉及执行操作（比如下单、预订、使用日历），而这是个很难的研究课题。等我们把端到端的流程真正做好后，它基本上就能做任何事了。

Sarah Wang：是的，真是太不可思议了，关于购物的部分。我现在买任何大额商品之前，都会让ChatGPT帮我把所有选项按照我关心的维度整理成一张表。真的非常厉害。

不过我想重点聊聊异步（async）这一块，因为我不知道你是否认同，但对我来说，这在年初时真是一个启示——人们其实愿意等待。因为你会想，我们都希望更快，毕竟这个工具的价值主张是能快速给我答案，对吧？这感觉像是2024年的思维模式。但显然，这个范式已经变了。人们愿意为高质量、高价值的答案和工作等待。那么，你怎么看用户等待时间与实际提供价值之间的权衡？你觉得理想的平衡点在哪里？

Isa Fulford：这很有意思。因为我之前在ChatGPT上做过检索功能，还在浏览团队工作过。Tina也在浏览团队，我们一直在权衡和优化延迟。我们会思考，如何最好地用你检索到的信息填充上下文，让答案在几秒内就够好。所以针对深度调研，我特别兴奋能把延迟变成非限制因素。我们做的是那些人类很难完成、需要花费好几个小时的任务。如果你让一个分析师做，可能得花10小时甚至两天，那用户愿意在产品里等五分钟，好像很合理。

所以我们就做了这个赌注，幸运的是看起来确实如此。但我也觉得，起初大家都觉得“哇，真厉害，它做了那么多工作，这本来我得花很久”，但现在人们又会说，“好吧，我想现在就要，30秒内给我结果。”

Sarah Wang：关于标准在变，我正想问，是否有一个经验法则，比如只要比人做快10倍，用户就愿意等？还是说这标准一直在变？

Christina Kim：每次新产品发布，用户的期望都会不断变化。

Isa Fulford：是的，我确实觉得，我们也有一个具体数字。有趣的是，有时人们会偏向认为答案越长，内容越详尽，做的功夫越多，但我不完全同意。比如深度调研总是给你很长的报告，但有时候我不想读完整篇长报告，实际上我不喜欢那样。

所以Agent模式只会在你要求时给你长报告。但有时人们习惯了总能得到很长的报告，就会觉得“等等，我一直在等我的长报告呢？”但实际上，要找到某个具体信息其实挺难，也会花人很多时间，因为它可能在结果的第10页，而Agent能直接找到那个信息。

很有意思的是，产品可以影响用户的期望。比如深度调研模式总是花很长时间思考，我其实不认为这是一个优点，但现在用户已经习惯了等待的时长。

Christina Kim：我们从GPT-5测试中也听到类似反馈，内部测试时有人说，“哦，我以为我问了个特别难的问题，结果它思考时间这么短，有点让被冒犯了。”或者有时它根本不想多想就回答了。

Agent能力受限于上下文与执行链，长任务仍是短板

Erik Torenberg：这让我想起马克·吐温的那句话：“我没时间给你写封短信，所以我写了封长信。”对了，你说说瓶颈吧，为什么agent不能有可靠的能力？你觉得主要瓶颈在哪里？

Isa Fulford：很大一部分原因是，我们训练的数据往往让模型在这些方面表现很棒，但在训练之外的领域，表现就参差不齐，有时不错，有时不行。所以关键是要在更广泛的领域创造更多数据，让模型在更多我们期望它擅长的事情上表现良好。

关于智能Agent这块也挺有意思的，当它代表你做事，并且能够访问你的私人数据和你使用的信息时，会有点吓人。因为它为了实现最终目标，可能会做出各种不同的操作。比如，理论上你让它帮你买东西，并且确保你喜欢它买的那样，它可能会买五样东西，只为了确保你喜欢其中一个，但这未必是你真正想要的。

所以在训练过程中进行监督和监控，这块也是一个很有趣的领域。我们确实需要开发一些新的东西，来推动这些智能Agent的进一步发展。另外，每当我们得到一个更聪明的基础模型或类似的东西时，所有建立在它之上的模型也会得到提升。

这也会有帮助，特别是像Tina说的，关于多模态能力，比如电脑使用的场景。它基本上就是在看网页的截图，有点有趣，因为人类在看东西时会专注于特定的部分。让模型直接看一张完整的图像，然后能够完全理解这张图像的所有内容，期待值有点高，因为我们人类自己看东西时都会聚焦在某个特定点上。

还有很多方面可以改进。抱歉，这回答比较泛泛。

Sarah Wang：没关系，实际上我想说的是，你刚才举的例子正好涉及我们一直很好奇的一个问题，也跟训练数据有关。比如，目前智能Agent在浏览任务上，哪些具体类别的任务比较有挑战？你有没有什么想法，怎样解决这些问题，让下一代模型表现更好？

Christina Kim：其中一个原因是，预训练依赖于现有的数据，而现在其实还没多少关于人们使用电脑的数据。电脑使用还不是一个有大量数据积累的领域，这也是我们现在必须主动去搜集的，因为这是我们想要的一个能力。所以这可能是提升电脑使用能力的关键瓶颈之一。

Sarah Wang：你觉得未来会更多依赖人力数据供应商来帮忙收集，还是因为这种数据目前根本不存在，或者说没有以对训练最有帮助的方式被记录，我们该怎么解决？毕竟这可能是模型最实用的应用场景，至少是在知识工作方面。

Isa Fulford：一个有意思的点是，比如最初做深度调研时，根本没有类似数学数据集那样的浏览数据集，所以我们得自己创造所有这些数据。但一旦你拥有了好的浏览模型或者使用模型，就可以用它们来辅助生成数据，这样就能实现数据的自举（bootstrap）。

Erik Torenberg：Christina，你能不能解释一下什么是中期训练（mid-training），它实现了什么，是预训练或后期训练做不到的？

Christina Kim：预训练（pre-training）是大规模训练，你可以把它理解为我们为之搭建庞大集群来完成的那些大型训练过程。中期训练就是介于预训练和后期训练之间的一个阶段。它相当于是“中间”训练，先在预训练后，但在后期训练前做的。你可以把它看作是提升模型智能的一种方式，不用重新跑一遍完整的预训练。

中期训练主要关注数据和基于预训练模型的优化。它能帮助我们做的事情，比如更新模型的知识截止时间。因为预训练时，你相当于是把模型“定格”在某个状态，之后无法轻易更新它。而且把所有新数据放进后期训练，也不太合适。所以中期训练就是一个较小规模的预训练跑，用来扩展模型的智能和提升知识的时效性。

未来五年将进入“主动智能体时代”

Erik Torenberg：Christina，你参与过Web GPT的开发吗？

Christina Kim：是的，我参与过。

Erik Torenberg：那你基本上就是个AI历史学家了。

Isa Fulford：嗯，是的。她也参与过电脑使用相关的项目。

Christina Kim：我是资深的了。

Erik Torenberg：能不能帮我们回顾一下，四五年前的情况，预测一下未来五年，会有哪些拐点或最让你惊讶的事情？

Christina Kim：老实说，Web GPT最让我们兴奋的，是试图让语言模型“接地气”，就是解决模型胡言乱语的问题。因为当时我们没有做中期训练，所以模型更新不够及时，很多事实信息都过时了。于是我们想，怎么让模型保持最新、最准确的信息，于是就想出了给它浏览网页的能力。这思路挺合理的。

然后正如我之前说的，这个项目慢慢演变成了，一个可以持续对话的聊天机器人。那个时候，已经有几家公司推出了聊天机器人。聊天机器人作为AI的应用其实很常见，不过当时很不受欢迎。所以我们其实不确定这个东西是不是用户真的想用的，大家会不会感兴趣，这算不算研究创新，我们是在重新发明图灵测试吗？不过后来我意识到，这里面可能真的有点意思。

我们早期给大约50个人提供了内测权限，其中大部分是我当时的室友。有两个室友一直用，一天到晚都跟它聊，很长时间的对话，而且问的问题还挺技术的，因为他们也是AI研究者。我当时想，“哦，这挺有意思的。”那时我们还在想，到底是做成一个专门的会议助手，还是代码辅助工具？但看到我两个室友把它当万能助手用，整个工作日都跟它聊天，“这挺有趣”。不过同样有趣的是，给那50人里的大部分人权限后，他们并没有频繁使用。我当时想，“嗯，肯定有潜力，但可能还没普及到每个人。”

Erik Torenberg：你什么时候意识到，“我正在这代最重要的公司工作”呢？什么时候觉得，“这事我确实相信，所以我来了”，但同时意识到它的规模和意义？

Christina Kim：老实说，我大概在加入OpenAI之前就有这种感觉了。我记得是看了那个“Scaling Laws”论文，还有GPT-3发布的时候，我突然意识到如果这个指数增长是真的，那我没什么比这更想花一辈子精力做的了。我想成为这个故事的一部分，这会解锁很多有趣的东西，这可能是技术的下一大步。那时候我就觉得，“哦，我得开始学深度学习，想办法进入这些实验室。”

Isa Fulford：我也是在加入OpenAI前。我第一次听说OpenAI是在某门AI课或者计算机课上，他们说“他们训练模型用的是整个互联网的数据。”我当时想，“哇，这家公司太疯狂了！”然后我开始用GPT-3，我是OpenAI Playground的资深用户。

后来我还拿到了一些早期权限，试用了OpenAI的各种功能，比如embedding（嵌入向量）什么的，慢慢变成了OpenAI的超级粉丝。虽然有点尴尬，但没关系，因为它把我带到了这里。最后他们就说，“你这么‘跟踪’我们，想不想来面试？”所以那时我就很明确了。不过，我当时用GPT-3的频率，跟现在的根本没法比，完全没法比。但从那时候起我就上瘾了，一直在想办法进来工作。

加入OpenAI是进入AI前沿的通行证，使命是推动AGI落地

Sarah Wang：或许可以问一个关于公司建设方面的问题。我们都反复读过Calvin French-Owen写的那篇文章，他分享了在OpenAI工作的感受。你不一定非得评论那篇文章，但我很想听听你对过去四年，或者其实那篇文章只讲了一年变化的情况下，你看到OpenAI发生的最大变化的看法。

Christina Kim：当我刚加入OpenAI时，应用团队只有大概10个工程师。我们当时几乎没有真正的产品部门，只刚刚推出API，一切完全不一样。现在，经过ChatGPT之后，AI进入了大多数人的视野。但在ChatGPT之前，大家其实并不太了解AI，也没怎么去思考它。现在我工作所在的地方，我爸妈都知道我在做什么，这感觉挺酷的。公司显然也变得大了很多，但这让我们可以承担更多风险。我加入时，OpenAI明显人员要少得多，大概200人左右，现在肯定接近几千了。

Isa Fulford：当时也是几百人，还是在ChatGPT发布前。显然，大家都知道你在做什么，朋友们都听说过你工作的项目，这完全不一样了。但从文化上来说，公司虽然大了，依然保持着创业公司的氛围。一些从创业公司来的同事会惊讶：“我现在工作比创办自己的公司时还拼。”好点子还是能从任何人那里冒出来，只要你有主动性，想把事情做成，不论你职位多高，都能实现。我们一直保持着这种文化，这挺特别的。

Christina Kim：是的，我们绝对会奖励主动性，这一直都是事实。特别是在研究团队，团队都比较小。当Isa做深度调研时，团队就两个人，依然是两个人。所以我们研究团队通常都比较小而灵活，这也是原因之一。

Erik Torenberg：你刚才还说过，在OpenAI我们做的一件事是创业公司通常不会做的，就是试图用一个产品吸引所有用户。还有什么事情是你觉得OpenAI做得跟同行或其他创业公司不一样，或者是我们外部不太理解的地方吗？

Isa Fulford：这个其实不同团队情况不一样，但我所在的团队跟应用工程团队、产品团队和设计团队合作非常紧密。研究团队有时候会跟公司其他部门比较分离，但我们是非常一体化的，我们大家都坐在一起。有时候研究人员会帮忙做一些实现工作，虽然工程师可能不总是乐意，但我们会尝试。比如他们会帮忙写前端代码，反过来他们也会帮我们做模型训练时的一些工作。所以，有些产品团队跟研究团队整合得挺好的，特别是在后期训练（post-training）阶段。这种模式让我们能快速推进项目。

Sarah Wang：OpenAI很独特的一点是，既是一个消费者导向的公司（按收入和产品来看），同时又是一个企业服务公司。内部怎么看待这个定位？你们觉得自己更偏哪一边，或者说这个划分根本就不对？

Isa Fulford：如果从使命角度看，这两个角色是统一的。我们的目标是做出最强大的产品，同时让它对尽可能多的人有用，尽可能多的人能用得上。所以从这个角度看，这种定位挺合理的。

Sarah Wang：品味这个概念现在也被广泛提及。在OpenAI里，好品味是什么？你怎么知道自己看到了好品味？在如今制作成本越来越低的时代，好品味是唯一不可被商品化的东西吗？还是这个标准也在变化？这是否会影响训练数据？

Christina Kim：品味很重要。尤其现在我们的模型越来越聪明，更容易当作工具来用。所以，有正确的方向感很关键，有正确的直觉，知道该问什么问题也非常重要。品味现在比以前更重要了。

Isa Fulford：让我惊讶的是，经常最简单、最容易解释的东西效果最好。有时候看似非常显而易见，但实际上把细节做好并不容易。好的研究者的品味，就是能够把问题简化到最简单、最“傻瓜”的那个方案。

Christina Kim：是的，每次我们发布研究成果，人们一看都觉得“哦，这么简单，当然行”，但关键是你得想到去试那个在当时看来可能不明显、但事后一看很显然的方案。然后再把所有细节调好，像超参数调整、推理细节这些，当然非常难，但核心思路通常很直接。

Isa Fulford：没错，品味就是奥卡姆剃刀，如无必要，勿增实体。

Erik Torenberg：好，作为结束，今天是历史性的一天，你能结合使命谈谈这意味着什么吗？从过去到现在，再到未来的发展方向？

Christina Kim：GPT里一直萦绕我脑海的词就是“可用性”。我们最兴奋的是把这个技术推广给每个人。我们很高兴现在能把最强的推理模型免费提供给用户。能把我们目前最聪明的模型带给所有人，我很期待看到大家会用它做些什么。

Erik Torenberg：这真是一个很好的总结。Tina，非常感谢你今天来录播客。

Christina Kim：谢谢，谢谢你们邀请我们。

原视频：GPT-5 and Agents Breakdown – w/ OpenAI Researchers Isa Fulford & Christina Kim

https://www.youtube.com/watch?v=k6DM-sgYu8M

编译：Alyssa Pang

请注意，本文编译自文末载明的原始链接，不代表Z Potentials立场。如果您对本文有任何想法或见解，欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群，与我们共同分享、学习、成长。

文章来自于微信公众号“Z Potentials”。

关键词: AI , GPT-5 , 模型训练 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales