红杉资本对话爆火AI编程Magic CEO：垂直整合是构建顶尖模型的关键；智能工具的未来是“同事”级别

7456点击 2024-09-29 22:42

图源：Sequoia Capital

Z Highlights：

AI领域的未来在于通用性和长期可靠性：目前AI已经解决了很多问题，但还需要解决跨领域的通用性问题和时间维度上的计算与测试效率。
Magic的愿景是自动化软件工程流程：通过构建能够支持AGI的模型，Magic希望实现软件工程流程的自动化，并最终实现模型的自我改进。
垂直整合是构建顶尖模型的关键：在 AI 领域，仅仅依靠开放生态系统中的现有模型和工具是不够的。为了构建真正的顶尖模型，他们需要垂直整合，即从头到尾掌控模型开发的全流程，包括数据收集、模型训练、算法优化和产品应用等各个环节。Magic坚持训练自己的模型，因为只有掌控核心技术才能实现真正的创新和价值。
智能工具的未来是“同事”级别：Magic追求打造像同事一样工作的智能工具，能够理解并主动完成任务，并在执行过程中提出建设性意见。
Hashless评估机制是评估模型上下文能力的关键：Magic开源了Hashless评估机制，用于评估模型在处理长上下文时的记忆和理解能力。

Eric Steinberger的AI之旅

Sonia：大家好，今天非常荣幸邀请到了Magic的创始人兼首席执行官Eric Steinberger来参加我们的节目。Eric拥有一段令人瞩目的背景故事——他还是高中生的时候就已经引起了著名研究人员Noam Brown的注意，并成为了他的研究伙伴之一。Eric以自己明确的研究方向和成为顶尖AI软件工程师的远大抱负而著称。今天，我们将与Eric探讨如何在人工智能领域创建一家全栈公司，听听他对Magic的发展愿景，以及对优秀AI研究员的看法。Eric，欢迎加入我们的节目！

Eric：谢谢你邀请我，Sonia。

Sonia：Eric是维也纳出生的神童，早年对数学有很大的热情，并在14岁时发展成为对人工智能的痴迷。Eric，让我们回到14岁那年。你当时在做什么？你为什么对人工智能如此痴迷？

Eric：我觉得自己在14岁的时候经历了一次所谓的“中年危机”。那时候，我只希望能找到一些真正有意义的事情来做。于是，我花费了大约一年的时间去探索物理、数学、生物学和医学等领域，以及其他一切我认为对世界有所贡献的知识。就在这一过程中，我偶然间发现了人工智能这个领域。当我意识到，如果能够构建一个系统，一个能够帮助我处理上述所有事务的计算机系统，那将是一件多么美妙的事情时，我感到异常兴奋。因为这样一来，我不必再为选择而困扰，我的决策难题也就迎刃而解了。那一刻非常特别，我仿佛看到了未来30年的人生轨迹在我眼前铺展开来。我知道这就是我要走的路，而且这条路对我来说是如此吸引人。因为我热爱那种确定感，所以能够预见未来的图景让我感到无比安心。

Sonia：你刚开始的时候喜欢数学，后来为什么变成了人工智能呢？

Eric：我觉得我天生就对数学感兴趣。但是对我来说，最重要的是对人类和世界有用的东西，虽然数学是一门精妙的学科，但在某些情况下它显得不够实用。如果你渴望成为一个对社会有贡献的人，那么研究17维球体可能并不是最直接的职业路径。相比之下，人工智能不仅是我擅长的领域，也是对人类未来发展至关重要的技术。因此，选择AI作为我的职业方向是非常明确的决定，这一点早在十年前我就已经十分清楚了。

Sonia：你能讲讲你是如何加入FAIR的吗？我觉得这是一个史诗般的故事。

Eric：回溯到我的编程之旅起点，那时年仅14岁的我，对编程本身还知之甚少，我的初衷并非源于对计算机技术的单纯好奇，而是怀揣着对解决人工智能领域难题的满腔热情。在数年不懈的自学之路上，我鼓足勇气，向David Silver麾下的一位博士生——同时也是AlphaGo与DeepMind的联合创始人之一发了邮件。我诚挚地请求他，是否愿意在未来一年中，每两周抽出时间审阅我的工作，这不仅是一个加速成长的机会，更是我心中梦寐以求的小型博士研究体验，旨在快速掌握科研的精髓。

为此，我精心撰写了一封详尽的电子邮件，其篇幅之长，足以让人印象深刻，甚至打印出来都会是一叠厚厚的纸张。信中，我直截了当地表达了我的雄心壮志：我希望能够挑战并超越他在博士论文中提出的先进算法。为了这一目标，我列举了十条充满创意的想法，尽管它们尚未经过实践的检验，但我深知，要实现这一壮举，我需要一位导师的指引与帮助。

幸运的是，他同意了，这位名叫Johannes的导师，在接下来的时间里，以他独特而严苛的方式，每两周给予我一次“直击灵魂”的反馈，不会因为我还在上高中就对我放松要求。那些批评虽然尖锐，有时甚至让我感到沮丧，但正是这样的挑战，推动我不断突破自我，迈向更高的标准。

Sonia：你当时还在读高中？

Eric：是的，当时我还在读高中。当完成这个项目时，我刚刚高中毕业。当时我正试图结项，Noam Brown联系了我，因为他也做过类似的事情，结果发现，我们的想法有些非常相似，有些则略有不同。我们俩都发表了这篇文章，后来他主动联系了我，然后我们一起合作了两年。

Sonia：你是如何引起他的注意的？你是一名高中生，而他是Noam Brown。

Eric：他发表了一篇名为Deep Counterfactual Minimization的论文，我发表了一篇名Single Deep Counterfactual Regret Minimization的论文，我的论文比他的略胜一筹。

Sonia：所以作为一名高中生，你比Noam Brown更胜一筹？

Eric：我当时刚刚毕业，他花了三个月的时间写这篇论文，而我花了几年的时间。我和Noam Brown在RL领域继续合作了一段时间，当时我还在上大学，Noam Brown在FAIR工作，他联系我加入FAIR，所以我当时基本上就是边学习，边在FAIR做兼职研究员。

Sonia：这太棒了。

Eric：是的，Noam很棒。和Noam Brown一起进行头脑风暴会议，没有什么比这更有趣的了，如果有人提出了一个问题，也许你会开始为期六个月的研究。

Sonia：那是什么让Noam成为一名如此出色的研究员？

Eric：我认为他能取得这样的成就，背后有多重原因。首先，作为一名研究人员，他眼光独到，总能精准地挑选出有价值的问题，并且愿意投入大量时间去深化研究，不断优化这些问题。他对研究中的复杂过程有着出色的驾驭能力。

再者，他在某个领域或项目上的投入或决策的方式与众不同，时间上也更为提前，这可能也是他能脱颖而出的原因之一。他总是能精准地挑选出问题，并坚持不懈地去解决它们。当然，他的聪明才智也是不可忽视的因素。我想，这些特质都对他产生了很大的帮助。

而且，他工作起来非常拼命。记得在攻读博士学位的时候，他每周都能投入100小时的工作时间，这种努力程度令人敬佩。虽然现在不清楚他是否还保持着这样的工作强度，但那段时期的他确实非常努力。

Sonia：所以你一边要兼顾这些，一边要兼顾Noam在FAIR的合作，然后你又开始关注另一个问题——气候变化，甚至创办了一个非常受欢迎的非政府组织，即Climate Science。你能同时做完这些事情吗？

Eric：那段时间简直乱套了，我最后只能选择放弃。我发现自己可以应付两件事情，但三件事真的搞不定。这是我努力了三个月后才意识到的。想同时做好三件事，结果往往是哪件都做不好。可能再过十年我能处理好，但当时我真的不行，所以我就退学了。

不过，我后来成立了一个非盈利组织。我一直觉得做慈善很棒，但很多人都没意识到它有多重要。创办这个组织就像是自己开了一家初创公司，虽然形式不太一样。我觉得做慈善和开公司一样酷，因为都是在用自己的方式帮助世界。那里的每个人都非常努力，我们有明确的目标，主要是做软件产品。

这个组织更像是一家没有资金流动的初创公司，因为它主要靠志愿者们推动。虽然我现在不直接管理了，但那段经历真的很棒。你可能会觉得从一种“工作”换到另一种“工作”应该很简单，但实际上它们差别太大了。就像Climate Science和Magic之间，完全不是一回事。我们当时有上千名志愿者，二十几个核心工程师，而且完全没有外部资金支持。至于我们筹集了多少钱，现在还不好说，但数目肯定不小。总的来说，这段经历真的很不一样，但也非常有趣。

Sonia：所以Eric，Climate Science成为了一个非常成功的非盈利组织，那之后是什么让你决定交出它的管理权，转而去创办一家人工智能公司？

Eric：当我们刚开始探索AGI（通用人工智能）的时候，我总感觉它还是个遥不可及的概念。如果当时我意识到AGI已经如此接近，我可能就不会去尝试其他项目了。但一旦我意识到它真的就在不远处，我就明白自己没有其他选择了，只能全力以赴。

其实，我一直对人工智能充满兴趣，从小就开始研究它。虽然我也关心世界上的各种问题，但人工智能始终是我的最爱。我一直希望能为AGI的发展贡献一份力量，哪怕只是一点点。那时候，我心里有个念头，觉得AGI的实现可能就在未来20年内。这个想法让我既兴奋又紧张，因为这意味着我们需要加快步伐，为AGI的到来做好准备。于是，我全身心地投入到AGI的待办事项清单中，这在我们团队内部就像是一个共同的信念和目标。我们都在努力解决AGI带来的各种挑战，希望能在它真正到来之前做好准备。

我记得在2017年左右，我还在读高中的时候，就已经开始研究这个版本的AGI了。那时候的我，虽然对很多事情都还不太懂，但那份热情和决心却让我一直坚持下去。有一次，我意外地被邀请在一个会议上展示我的AGI待办事项清单。虽然那时候的清单还有很多不足之处，但我依然勇敢地站上了讲台。因为我知道，只有通过不断的尝试和修正，我们才能离AGI更近一步。

我一直不喜欢那种空想式的研究方式，我更喜欢先提出问题，然后寻找答案。因为只有这样，我们才能明确自己的方向和目标，为AGI的实现做好充分的准备。在探索AGI的过程中，我发现了很多有趣的现象和规律。比如，虽然很多事情看起来已经很清楚了，但如何让这些模型在一般领域进行推理却仍然是个难题。不过幸运的是，随着语言模型和代码模型的发展，这个问题开始变得越来越清晰。

当我看到这些早期成果时，我意识到我们可以利用这些模型来推动AGI的发展。于是，我提出了一个简单但意义重大的建议：让语言模型来处理强化学习中的任务，这个想法虽然简单，但我相信它有着巨大的潜力。当然，要实现AGI还需要解决很多其他的问题和挑战。比如算法的细节、如何提高效率等等。但我们并不是孤军奋战，有很多优秀的团队和人才都在为这个目标而努力。我相信只要我们保持方向明确、坚持不懈地努力下去，就一定能够迎来AGI的春天。

优秀AI研究员的特质

Sonia：我觉得你对自己的背景过于谦逊了。要知道，作为一名高中生，就吸引Noam注意，在FAIR成为他顶尖合作者之一，实属难得。并且我和很多认识你的人都聊过，他们对你的评价无一不是高度赞扬。

所以，我完全可以肯定地说，你是当前研究领域最最耀眼的明星之一，并且肯定会成为未来十年人们谈论的传奇人物之一。鉴于你的非凡成就，我非常想向你请教一些问题，希望能为有抱负的研究人员提供一些宝贵的建议。首先，我想知道你是如何在这样一个非传统的背景下取得如此辉煌的成绩的？你的成功秘诀是什么？另外，我也很好奇，对于那些和你有着相似背景或梦想的年轻人，你会给出什么样的建议呢？

Eric：我来分享一下我的目标和性格吧。我很庆幸，和Martina一样，我很早就明确了自己的方向，从未动摇。面对不确定，我坦然接受，因为我知道自己没有备选方案，生活只此一条路可走——那就是致力于AGI的构建，其他一切对我而言都不重要。

很多人觉得在谷歌找到高薪工作就很了不起，但如果能在AGI领域有所建树，那才是我的追求。我清楚，我的人生目标就是找到能让我在晚年回首时感到满足和快乐的事业。所以，我早早地放弃了其他可能，专注于此，哪怕开始时我表现得很糟糕，比如花了两个月才勉强理解第一篇论文，编程技术也长时间停留在初级阶段。但青春赋予了我作为研究人员的优势，我得以快速成长。

我想说的是，不必一开始就追求完美，因为过程中你会遇到优秀的导师，他们的批评和指导会让你变得更好。而年轻，让你的大脑更具可塑性，这是早期奋斗带给我的巨大收获。我鼓励大家直接追求最终目标，不要为了学历或工作而偏离方向。同时，要学会主动寻求帮助，比如写一封详尽的邮件给行业内的佼佼者，这不仅体现了你的诚意，也能高效获取他们的智慧和经验。记住，勇敢地向最优秀的人展示你的潜力和决心，他们很可能会成为你的引路人。

此外，不要害怕学习新事物。我进入编程领域并非因为对计算机本身感兴趣，而是出于对人工智能的热爱。保持好奇心，深入了解你工作的每一个环节，从顶层到底层，这样你才能更好地驾驭整个系统。阅读是拓宽视野的绝佳途径。我读过很多论文，逐渐在脑海中建立起一个知识数据库，这让我在面对新问题时能够迅速找到关联和解决方案。比尔·盖茨的话给了我很大启发——学得越多，越会发现知识的相通性。

最后，要对自己诚实，认识到自己的不足并努力改进。作为研究人员，要明智地利用自己的优势，而不是盲目押注。做好任何事情需要很长时间，我和DeepMind研究科学家Johannes有过一次合作，他曾在高中指导过我一年，当时我们的算法版本不是很好，他几乎要放弃我了，认为这个行不通。但是我当时只想把事情做完，我出去散步，然后就想，我能做到吗？实际上，我不知道我能不能做到，但我别无选择，所以我最好把它完成。之后我回家，继续开始编程，最终我们的项目在一两个月后成功完成了。所以要保持坚韧不拔的精神，即使面对失败和挫折，也要坚持下去。因为只有这样，你才能在AGI这条道路上走得更远、更稳。

Sonia：我从您的合作者那里得知，您拥有一种非凡的能力——那就是迅速理解和吸收新的研究成果。这不禁让我深感好奇，您是否也认同这是您在研究领域的“超能力”呢？或者您认为哪些特质让您成为如此出色的研究人员？

Eric：在我刚开始涉足强化学习领域时，我采用了一种综合性的研究方法。我会广泛阅读每一篇相关论文，然后尝试将各种方法和技术融合起来，进行不断的试验和调整。我认为这种“拼凑”的过程其实是一种深入学习和理解的过程，它对我的研究非常有帮助。我坚信，综合性的工作量足够大时，确实可以成为一种有效的成功策略。这种策略在某种程度上仍然适用于我现在的研究工作。

在后来的研究中，我更加努力地提升自己的创新能力。我意识到，仅仅依靠现有的知识和方法是不够的，还需要敢于跳出框架，提出全新的、前所未有的想法。比如，在Transformer的研究中，虽然Attention机制和堆叠LSTM块的想法已经存在，但我尝试去除循环结构，并加入其他元素，来优化模型性能。

同时，我也意识到，综合性的研究并不意味着简单的堆砌。要让各个组件协同工作，发挥出最大的效能，还需要进行大量的调试和优化工作。比如，残差更新和转换器的设计就借鉴了ResNet的思想，但要真正让它们发挥作用，还需要花费很多心思。

此外，我也认识到，好的想法往往需要在综合的基础上有所突破。我会努力寻找那些能够带来质的飞跃的新点子，比如标准化和头部平方根的改进，尽管后来证明这个特定想法不完全正确，但它启发了我去思考更多。

总的来说，我认为大多数优秀的想法都是综合性的结果，但最好的想法往往还包含了一些突破性的创新。我正在努力提升自己的综合能力，同时也保持对创新的敏锐感知，希望在未来的研究中能够取得更好的成果。至于LLM的研究，我认为让它们变得更加高效、支持更大的上下文、并实现与RL的协同工作，也主要是一个综合性的任务。当然，在这个过程中，我们也需要不断探索新的可能性，以实现真正的突破。

Sonia：在研究界，您最钦佩谁？您认为这些人的“超能力”是什么？

Eric：Noam，他的超能力，如果要用一个词来概括，那就是很强的综合能力。他仿佛在所有领域的堆栈中都能游刃有余，展现出卓越的全能才华，几乎找不到任何短板。如果需要，他仅凭一己之力就能完成整个项目，这种实力令人赞叹。

他对于未来的展望，总是那么不拘一格，充满创意。不同于那些将缩放定律归功于特定实验室的常规思维，他却在演讲中以一种轻松幽默的方式，快速浏览并探讨了从百万参数到数十亿参数不等的各种规模模型的发展论文或成果。这种跨越式的思维，让人忍俊不禁，同时也深感其洞察力的深远。与许多实验室和研究人员不同，他并不完全依赖于评估和经验的累积，而是凭借一种难以言喻的直觉来预测和判断。他说：“这会奏效的。”然后，奇迹就真的发生了。这种能力，无疑是一种“超能力”，是综合能力的极致体现。

由于他在这一领域深耕已久，他的知识储备如同一个庞大的数据库，几乎无所不包。现在许多被广泛应用的技术和方法，都源自于他的创新。这种影响力之大，无人能及。

在众多深度学习领域的先驱者中，Noam之所以能够获得如此多的赞誉，不仅因为他的卓越贡献，更因为他面对质疑和困难时的坚韧不拔。当所有人都认为某个想法行不通时，他却能坚守信念，最终证明了自己的正确性。无论Capsule最终是否如他所愿发挥出巨大作用，他对于整个深度学习领域的贡献和影响都是不可磨灭的。回顾早期的论文，我们可以发现许多如今至关重要的思想已经初具雏，这充分证明了Noam的前瞻性和洞察力。因此，我认为Noam完全配得上所有的赞誉和尊敬。

Magic的愿景和挑战

Sonia：我们来讨论一下Magic。什么是Magic？到目前为止，你一直很神秘，所以也许可以分享一下你正在构建的东西。

Eric：我们的愿景，从根本上讲，是希望实现软件工程流程的自动化，而构建能够支持AGI的模型，则是这一宏伟蓝图中的一个重要子集。理想中的智能系统，应当如同顶尖的软件工程师般，能够高效地处理并优化各种任务，甚至超越人类的局限，完成那些看似不可能的任务。

具体而言，我们设想着利用这样的智能系统来递归地改进模型本身及其生成内容的一致性，从而彻底摆脱人力资源的束缚。毕竟，像Noam这样的顶尖人才是稀缺的，但如果我们能在计算机中模拟出成千上万个这样的“数字分身”，那么许多难题，包括对齐问题，或许就能迎刃而解。当然，这样的表述可能过于理想化，但它确实反映了我们对于未来技术的憧憬。

简而言之，我们的核心理念是：通过技术克隆我们正在进行的工作，并部署到计算机集群中，让它们自动完成原本需要我们耗费大量时间与精力的任务。我们期待推出的不仅仅是一款人工智能软件，而是一个能够显著提升工作效率、改变行业生态的革命性工具。我坚信，随着这些模型的不断完善，自动化将不再只是遥不可及的愿景，而是即将成为现实的经济驱动力。这一趋势是不可避免的，因为它符合经济规律：当能够以更低的成本生产更多或同等价值的产品时，市场自然会选择这条路径。

或许有些人对此持保留态度，不愿过多讨论，但这并不妨碍我们看到未来的趋势。从历史的长河来看，人类社会的每一次进步都伴随着生产力的飞跃，而这次，我们有望成为推动这一飞跃的重要力量。我们不再是依赖传统方式的“农民”，而是掌握着先进技术的探索者。

Sonia：追求软件工程的原因是，它是可以自动化一切的杠杆。

Eric：这就像是AGI的MVP，对吧？就像是最小可行AGI。

Sonia：是的。

Eric：因为这样它就能创造其他一切。比如我们不会训练像Sora这样的东西。Sora太棒了。通用视频很棒。但如果你相信模型可以自行编码，那么从AGI的角度来看，它就没什么意思了。

Sonia：在所有试图培养人工智能软件工程师的公司中，你可能是唯一一家真正采用垂直整合方法并训练自己的模型的公司。我很好奇，您为何坚信唯有掌控模型的核心技术，方能实现这一目标？在开放人工智能生态中，不乏顶尖人才与优秀模型，他们同样致力于编码与构建，这样的现实背景下，您是如何激励自己挑战常规？

Eric：我坚信，要构建出最顶尖的模型，就必须亲自投身于模型的创建与优化之中。我们的目标直指那些影响深远的根本性问题，力求通过自主努力来逐一攻克。在这个过程中，我们无法也不应依赖外界现成的解决方案，比如依赖API服务商解决问题，否则，我们可能会发现自己在三年后还在原地踏步，这样的循环并非我们所愿。

自两年前踏入这一领域以来，我们已投入大量时间深入研究，致力于掌握训练大型模型的精髓。这一过程虽漫长且充满挑战，但值得注意的是，即便是像OpenAI这样的行业领军者，也耗费了两年时间才从GPT-3迭代至GPT-4。我们曾天真地以为能够更快实现突破，但现实告诉我们，这是一条既艰辛又必要的工程征途。

我们之所以选择这条道路，绝非出于个人兴趣或是对模型训练的偏爱，而是因为这背后承载着巨大的金融责任与人们的信任。这并非一场简单的投资回报率游戏，而是一场关乎信任与未来的豪赌。如果成功，自然皆大欢喜；但若失败，不仅硬件投资化为乌有，更可能辜负了所有支持者的期待。

从根本上讲，我认为真正的价值将累积于AGI与硬件层面，而非仅仅停留在应用层面。提供API服务虽能带来一定收益，但长远来看，它缺乏推动行业深刻变革的动力。如果仅仅依靠API就能轻松打造出一家千亿美元市值的公司，那么这样的成功模式迟早会被复制，无论是OpenAI还是其他玩家。这样的前景，在我看来，既不切实际也难以持续。

从商业战略的角度出发，我认为过度依赖API服务并非明智之举。当然，合作与共赢始终是我们所倡导的，但合作的基础应是能够带来实质性的创新与增值，而非简单的资源共享或特权访问。在云计算已经遍地开花的今天，我们更需要探索那些能够引领行业未来、创造真正价值的合作模式。

打造像Netflix、Airbnb或Uber这样的颠覆性平台，远比开发一个简单的聊天界面要复杂艰巨得多。以Magic为例，它作为一款直观易用的应用程序，背后虽仅有少数开发者的努力，但其背后的技术支撑与生态构建却远非YC种子轮资金所能轻易达成。

拥有坚固的护城河，意味着我们有能力在市场中占据主动，比如将新模型的API价格翻倍，同时推出自己的产品并以极具竞争力的价格销售，从而全面掌控市场节奏。在这个领域，缺乏自主模型将极大限制企业的竞争力与增长潜力。因为，任何一个细分市场的领先地位，都可能成为企业可观的收入来源。

然而，若市场呈现分布式状态，或许情况会有所不同，但我认为这并非当前主流趋势。因此，对于市场而言，拥有自主模型的能力是不可或缺的，这同样对我们这类创业者极为有利。因为市场会倾向于支持那些能够推动行业创新、拥有核心技术的企业，而非仅仅停留在表面应用的竞争者。

就像电子邮件助手这样的基金写作工具，一旦失去技术优势或市场领先地位，就很难再吸引到相同的投资与支持。这正是为什么我们坚持训练自己的模型，因为这不仅关乎企业的长远发展，更是我们使命的必然要求。对于构建小型SaaS包装器这类短视行为，我从未有过兴趣，因为那无法实现我们的愿景与抱负。

Sonia：您如何激励自己在现实中竞争呢？比如怎么筹集够钱？

Eric：问题是构建AGI需要多少钱，而不是我能筹集多少钱。即便你拥有庞大的资金池，如果这些资金未能精准地投入到AGI构建的关键环节，那么资金的多寡并不会显著加速目标的实现。关键在于，你是否拥有正确的思路与策略，以及能否有效利用现有资源硬件来推进项目。

假设硬件资源是无限可扩展的，那么理论上，拥有百倍于对手的硬件资源确实能显著提升计算速度，但这并非构建AGI的唯一决定因素。更关键的是，你是否对构建AGI所需的计算量有准确的预估，以及这种预估是否超出了市场上现有公司能够产生的收入或筹集的资金范围。如果答案是否定的，那么资金优势在此领域可能并不构成实质性的竞争力。

筹集巨额资金无疑是一项艰巨的任务，但我认为，构建AGI所需的资金量不太可能达到千亿美元的天文数字。当然，如果实际情况超出预期，我也愿意承认自己的判断有误。但在当前情境下，我们更应关注如何高效利用有限资源，而非盲目追求资金的最大化。

如果未来出现多个公司同时拥有AGI技术的局面，那么市场竞争将更多地体现在如何将这些技术转化为实际产品并推向市场。在这样的环境下，投资回报率将成为衡量企业竞争力的重要指标。拥有AGI技术的企业将通过展示其技术的商业价值来吸引更多投资，进而形成良性循环。

因此，我认为在AGI领域，一个合理的策略是确保拥有足够的硬件资源来支撑项目的初期发展，但不必追求过度冗余。这种策略既符合成本效益原则，也符合市场竞争的实际情况。同时，我也认为，在AGI技术的投资回报率方面，早期拥有适量资金并高效利用的企业可能比那些盲目追求资金最大化的企业更具优势。然而，对于投资者而言，这种策略可能并不符合其风险偏好和投资习惯。

Sonia：目前Magic研究人员团队规模是否理想？增加研究人员的边际收益是否会在某个点上递减？

Eric：在我反思Magic的早期阶段时，一个显著的挑战便是无法高效地扩大团队规模。那时，我们高度依赖于一个极小的核心团队，几乎所有人都在承担多重角色，负责着广泛而繁重的工作。幸运的是，随着时间的推移，我们在这方面取得了显著的进步。

团队扩张的关键在于，你的代码库和研究思路需要达到一定的成熟度，这样你才能清晰地界定各个部分的责任与边界，从而实现有效的分工合作。从最初的五人小组，到现在接近二十人的团队，我们的成长是显而易见的。这里，我所说的“接近二十人”是指直接参与模型开发及其他核心工作的成员，而不包括那些在其他领域贡献力量的同事。

未来随着项目的深入和大规模部署的临近，我们的团队规模还会进一步扩大。为了确保高可靠性和服务的无缝衔接，我们将更加注重流程的优化和团队的细分。当然，这一增长过程将是渐进的，我预计团队规模最终会稳定在一个合理的范围内，或许不会超过几十人。

尽管目前的团队规模相对较小，但这并不意味着我们在效率上有所妥协。相反，这种规模使我们能够保持高度的专注和灵活性。不过，我也清楚地认识到，如果能够更有效地利用更大规模的团队，那么我们的进展无疑会更快。这要求我作为CEO，不仅要具备管理小规模团队的能力，还要拥有驾驭更大规模团队的远见和策略。

实际上，我认为我们当前的小规模团队在某种程度上是一种优势，因为它迫使我们更加专注于核心任务，避免了资源的分散和精力的浪费。然而，如果条件允许，我绝对愿意看到我们的团队规模翻倍，同时保持甚至提升我们的工作效率。毕竟，在人工智能这个日新月异的领域，速度往往就是一切。

AGI领域的探索与思考

Sonia：研究仍然需要飞跃，你认为目前人工智能中最有趣的未解决问题是什么？

Eric：我认为现在很多问题都已经解决了，剩下需要解决的是跨领域的通用性问题和时间维度上的计算与测试效率。在探索数学新定理、构建大型软件程序，或是撰写逻辑严谨、内容复杂的文章时，我们往往不会采取逐个字符或步骤的机械化操作，而是需要深入思考与精准决策，特别是在关键节点上投入更多智慧与资源。因此，我认为寻找一种策略，以超乎寻常的效率，非简单的倍数增长，而是百万级别的飞跃，来优化这些关键步骤的资源分配，显得尤为关键。这或许正是我们当前面临的最大挑战，也是推动人工智能迈向更高层次智能的终极难题。

回顾近年来的进展，诸多曾被视为挑战的问题已逐一被克服。无论是多模态处理、长上下文理解，还是其他技术壁垒，都已不再是不可逾越的障碍。智能模型不仅在功能上日益完善，其成本效益也达到了前所未有的高度，这足以让任何对未来持怀疑态度的人重新审视现实。

对于语言模型领域的众多探索者来说，这种认知或许尚属新颖，但强化学习领域早已先行一步，证明了这一方向的必要性与可行性。显然，跟随这一趋势是明智之举，尽管也有人可能认为这不是必需的，甚至觉得这种想法有些激进。然而，即便是在非必要的情况下，优化预训练与推理过程也依然能带来巨大的收益。

至于投入成本，无论是选择投入10亿美元进行高效的预训练，再辅以相对低廉的推理成本，还是直接斥资100亿美元以追求更为极致的预训练效果，都是值得深入考虑的策略。而我个人的倾向是，虽然100亿美元的投入看似庞大，但若能以此换来显著的性能提升与长远的竞争优势，那么这样的投资无疑是值得的。

Sonia：回想2022年末，您是最早让我感受到AI推销员像同事一样亲切的。您似乎很早就开始思考智能“经纪人”的概念。能分享一下您对此的看法，以及打造优秀智能经纪人的关键吗？

Eric：在智能辅助工具的层次划分上，我倾向于将其分为三个层次。首先，最低层次的是那些几乎无用的工具，它们难以提供实质性帮助。其次，是那些需要用户进行微观管理的助理型工具。它们虽然能提供一定程度的辅助，但用户体验受限于频繁的指令和干预。

最后，则是我所追求的“同事”级别工具。在这个层次，工具不仅能够理解并主动完成用户指派的任务，更能在执行过程中提出建设性意见，仿佛一位并肩作战的同事。这种境界的微妙之处在于，它跨越了简单执行的界限，迈向了更加智能、协同的新阶段。

当模型的能力超越用户时，一个理想的场景是：用户只需给出大致方向，模型便能自主完成任务，并在必要时提出澄清问题。这种高度自主的能力，是我对未来产品的终极愿景，尽管它可能不是第一个版本，但无疑是努力的方向。

与我理想中的工程师共事时，我能感受到那种默契与高效。我提出需求，他们理解并优化，最终呈现出完美的解决方案。我希望与Magic的对话也能达到这种境界——一个充满智慧、能够理解并预见我需求的伙伴。

至于工具背后的技术细节，如使用的工具、云端还是本地运行、是否需要虚拟机或浏览器等，这些对用户来说并不重要。用户关心的是问题是否得到解决，以及解决的过程是否顺畅。因此，我们将这些技术问题视为内部挑战，致力于为用户提供无缝、高效的体验，只有那些真正像“同事”一样工作的智能工具，才能赢得用户的长期信任和依赖。这是我个人坚定的信念，也是我们团队不懈追求的目标。至于如何实现这一目标，则需要每个公司根据自身情况和技术路线来探索和实践。

Sonia：是的。你认为我们距离这个目标还有多远？

Eric：但我认为很快，可能过几年就可以实现。

Sonia：少于10年？

Eric：肯定远远少于10年。

Sonia：好的，刚刚发布的SWE代理，他们在SWE Bench上占了14%，您怎么看待这个？

Eric：14%只是一个数字，它本身对我而言并无太大意义。我真正关心的是，无论是80%还是90%的准确率，都不足以满足我的高标准。我心中的理想状态是接近完美的99%，因为即便达到96%，我也无法完全信任系统的稳定性和可靠性，更不用说让我放弃对代码的细致检查了。

这种信任门槛的差异，在需要我亲自审查代码的产品层级与那些我无需深入了解代码即可信赖的产品之间，划下了一道鲜明的界限。当我不愿再审查时，那意味着系统的表现已经接近了我心中的完美标准——大约99%的准确率。这不仅代表了开发人员付出的全部努力，还象征着技术如自动驾驶汽车般的成熟度，尽管后者涉及的后果更为严重，但在这里，我们的追求同样是对细节的不妥协。

当然，我意识到要达到这样的高标准绝非易事。往往，最关键的进步发生在最后那微小的百分比提升上，这可能是最艰难也是最具挑战性的部分。但令人鼓舞的是，我看到模型已经在多个基准测试中超越了预期，进步的速度甚至超过了市场的预测。这种趋势让我相信，未来的技术将不断突破现有的界限，达到令人难以置信的新高度。

至于公众对于GPT-4或类似技术的看法，我认为它们只是技术演进道路上的一个重要里程碑，而非终点。技术的潜力是无穷的，只要我们保持对完美的不懈追求，未来必将有更加出色的产品出现，满足我们日益增长的期望和需求。

Sonia：好的，我们将以快速问答环节结束。第一，你最喜欢的AI应用是什么？

Eric：或许，目前那些隐形的工具，比如我的垃圾邮件过滤器和其他类似的服务，仍然在我们的日常生活中扮演着不可或缺的角色。它们默默地工作，确保我们能够保持高效的工作状态，避免被无用的信息所干扰。与那些尚处于发展初期的AGI应用相比，这些成熟的技术工具无疑在实用性上更胜一筹。毕竟如果失去了它们，我们的生活将会陷入混乱和不便之中。

以推荐算法为例，它们通过分析我们的偏好和行为模式，为我们提供个性化的推荐内容，极大地提升了我们的使用体验。这种实用且高效的功能，无疑是目前技术领域中的一大亮点。当然，除了这些显而易见的应用之外，还有许多其他领域也在不断地探索和创新。但在我看来，无论是哪个领域，只要它能够为人们带来实际的价值和便利，就值得我们去关注和期待。

Sonia：哪篇论文对你影响最大？

Eric：是这篇名为Deep Stack的论文，虽然该论文所探讨的算法或许已不再是最前沿的技术，但它在我心中占据着不可替代的位置。作为我初次深入探索学术研究的尝试，我倾注了数月的心血去重新实现其中的理念与算法。这段经历对我个人的成长影响深远，尽管它对我当前职业工作的直接影响或许有限。

Deep Stack是一篇探讨神经网络在不完美信息博弈中应用的开创性论文，其内容深邃且复杂，需要投入大量时间去细细品味与理解。正因如此，它特别适合于那些对深度学习、博弈论及两者交叉领域充满热情与好奇的研究者。

Sonia：最后一个问题，您对人工智能领域最感兴趣的是什么？

Eric：人工智能会怎样发展，社会将如何融入其中。我们已站在一个历史性的转折点上，未来一至五年内，人工智能的影响力将不再局限于浏览器中的一个便捷工具，或是简单提升某些任务处理速度的辅助手段。相反，它将深刻改变社会运作的方方面面，成为推动社会进步与变革的关键力量，而不仅仅是浏览器中的另一个选项卡。最后你应该知道，我不是那种天生好奇的人。我知道大多数研究人员都是，但我真的不是，我只关心结果。

Sonia：你刚刚宣布了一些令人兴奋的新消息，我希望你能与我们的观众分享。

Eric：非常感谢您的关注与支持。我们采用Hashless评估机制已经有一段时间了，期间确实对Needle和Hisstack等其他评估方法感到了一定的局限性和不满。这种情绪在团队中普遍存在，大家对此都颇有微词。

鉴于此，我们决定不再仅仅停留于口头上的讨论，而是正式公布我们在上下文研究工作方面的最新进展。我们意识到，仅仅炫耀我们拥有多少上下文代币并不足以展现其价值，因此分享我们的评估结果，让事实说话，才是更为合理且负责任的做法。

在筹款过程中，我们确实利用了这一评估机制，它在指导我们的架构开发与研究方向上发挥了至关重要的作用。因此，我们认为将这一评估机制开源是正确的决定。我们期待看到其他开发者或研究机构能够利用它，将他们的架构与我们的进行比较，共同推动这一领域的发展。

Sonia：谢谢。您能说说Needle和Hisstack有什么问题吗？您的评估有什么不同吗？

Eric：是的，当然。想象一下，使用Needle和Hisstack就像是在一个巨大的、看似普通的Hisstack（比如一堆书或数据）里找一根特别的针（Needle）。你的任务就是从头到尾翻找，找到那根针，看看它，然后再放回去。

如果你事先知道那根针很特别，你可能更容易记住它在哪里，这样你就不需要记住整堆东西的所有细节。所以，有些模型可能看起来擅长处理长文本，但实际上它们可能只是记住了某些特别的部分，而不是真正理解整个上下文。为了测试这一点，我们决定用一个完全不同的方法：我们用一堆随机的字母（就像乱码一样）替换掉所有的内容，这样就没有任何实际的意义了。如果你在这样的“哈希池”里做Needle和Hisstack的测试，那你就得完全靠理解和记忆整个流程来找到那根“针”。

而且，我们的测试不只是找一根针那么简单，你可能得找到这根针，然后再去找另一根，就像是在玩一个跳跃游戏。这样，我们就能看到模型在两个关键方面做得怎么样：一是找到特定信息的能力，二是连续处理多个信息点的能力。当然，对于更专业的领域，比如代码评估，我们也有专门的测试。但从一般用途和上下文评估的角度来看，我们选择开源这个测试方法，是因为它能直接告诉我们模型在处理长上下文时到底能记住和理解多少东西。其他那些特定领域的测试也很重要，但在这个问题上，我们关注的是模型对整个上下文窗口的掌握程度。如果模型不能真正记住和理解整个上下文，那它真的能算好吗？我想答案是不言而喻的。

Sonia：我记得我们自己的研究人员对评估的纯度和出色的表现感到震惊。所以谢谢你们所做的一切，感谢您将其开源，特别是在长期背景变得越来越重要的时代。

文章来源于“Z Potentials”，作者“Sequoia Capital”

红杉资本对话爆火AI编程Magic CEO：垂直整合是构建顶尖模型的关键；智能工具的未来是“同事”级别

关键词: AI , AI编程 , Magic , AI访谈