Scale AI 的创始人 8 年前意识到,所有干 AI 的都认为数据至关重要,但没多少人把数据当成主业。
他从 MIT 辍学,创业做数据标注。
2016 年,Alex Wang 成立 Scale AI,2022 年,他 25 岁,《福布斯》世界上最年轻的白手起家亿万富翁。2024 年,Scale AI 完成一笔 10 亿美元融资,估值 138 亿美元。
他的面孔时常出现在 Sam Altman 和 Eric Schmidt 身边,他支撑着那些「代言」AGI 的人们:满足他们的数据需求。
已成为业内共识的 Scaling Law 意味着,随着模型变大,对数据的需求会指数级增长。Alex 和 Scale AI 不满足于数据匮乏的状态,他们认为,人工智能数据未来建立在三个新的原则上:数据丰富、前沿数据、测量与评估。他们希望建立一个数据工厂,引领一个 AI Ready、数据丰富的时代。
这篇文章里,Alex 讲述了他的成长经历、Scale AI 转型的过程,以及他对于数据短缺如何解决、AGI 如何到来等业内热议话题的看法。
本文编译自 Stratechery、No Priors 对 Scale AI 创始人 Alex Wang 的访谈,Founder Park 进行了再编辑和整理。
Ben Thompson:我总喜欢先了解创始人的故事。我知道你 1997 年出生,你是哪里人?讲讲你的人生经历吧。
Alexandr Wang:我出生在新墨西哥州的洛斯阿拉莫斯,是曼哈顿计划的发源地,在《奥本海默》里出现过。那儿有一家国家实验室,我父母都在那里工作,那地方满地都是博士。
Ben Thompson:你对数学和科学的兴趣是因为你父母吗?
Alexandr Wang:对,我的兴趣转化成了参加各种竞赛,比如数学、编程、物理竞赛,从州级一路到国家级,虽然最后没有入选国家队,但也都进到了最后的筛选环节,在物理方面大概是 12 强,计算机科学方面也差不多。
Ben Thompson:所以你是「奥林匹克全能型」选手。
Alexandr Wang:「样样通,样样松」。但我确实没发现有哪位参赛选手像我一样涉猎广泛,这也让我没办法在某一个领域更突出。在编程竞赛圈子里,有不少优秀的程序员在湾区的一些科技公司工作,包括 Quora。高中我觉得无聊,所以在 17 岁搬到了硅谷,在 Quora 做工程师,做速度优化一整年,初步了解了工程和技术行业。
Ben Thompson:针对实际的产品做工程设计跟奥赛相比,有什么不同吗?
Alexandr Wang:关键在于,奥赛会明确告诉你具体的任务是什么,但在产品工程里,你可以自由选择要解决的问题。我发现,选择什么问题基本决定了最后的成效,收益有可能相差十倍以上。
Ben Thompson:你年纪轻轻就开始创业,这个认知应该很深刻,是什么让你认识到这一点的?
Alexandr Wang:Quora 的测试结构非常完善,我们能看到所有 A/B 测试的结果,这是一大特色。有一些技术难度比较大的项目,比如推荐系统更新或信息流排列算法调整。还有一些简单的测试,比如改变按钮颜色或者风格微调等等。看各种测试数据可以发现,有些看起来简单的调整带来的影响非常大。
Ben Thompson:Google 甚至对不同蓝色链接的色调做 A/B 测试,还遭到了一些批评。
Alexandr Wang:其实,改变一个按钮的颜色产生的影响,有时候跟网站提速 20% 带来的效果差不多,但是相比起来,让网站加速 20% 要难得多。
Ben Thompson:你从 Quora 离开后去了 MIT?
Alexandr Wang:是的。在去 MIT 之前,大概是在 2014 年,我参加了一个叫 Spark 的夏令营,是一群有效利他主义者办的。组织者之一是 Paul Christiano,他发明了 RLHF (来自人类反馈的增强学习)。这个夏令营里有一群非常聪明的人,他们专注在深度学习上,说它会变得非常重要。
而且,那个时候他们已经开始讨论 AI 的安全性问题了。他们说:「如果深度学习继续发展,我们将会实现 AGI,到那时安全会是个大问题。」这也是后来 OpenAI 创立的原因。
大家都对深度学习很感兴趣,但我当时我对这个还真不太了解。那年,DeepMind 发布了 AlphaGo,Google 发布了 TensorFlow,可以说是深度学习热潮的开始。回到大学之后,我花了一年时间密集学习深度学习,训练了很多神经网络,这让我有了一个重要的发现:
这些大模型由三部分组成:算力、算法和数据。Nvidia 和其他公司在处理算力,有很多聪明人在处理算法,但处理数据的人却很少。所以选择正确的问题非常重要,不一定要选最复杂、最有技术含量的。因此,我意识到,随着技术的发展,数据将变得越来越重要。需要一个专注于数据的公司。
所以在 2016 年,我辍学参加了 YC,真正启动了 Scale,去解决数据支柱问题。这就是 Scale 作为 AI 数据工厂 (data foundry) 的开始。
Ben Thompson:当你发现数据是第三个重要支柱,但没有太多人关注时,你是怎么想的?有没有具体的操作想法,还是只是觉得这是一个有待解决的问题?
Alexandr Wang:最直接的体验就是,当时我用 Google Cloud 的单 GPU 训练了一个神经网络,用 TensorFlow,根据某人的面部表情检测情感。基本上就是直接把 ImageNet 的图片识别代码数据集换成情感识别的。12 小时后,我就得到了一个吊打其他方法的情感识别神经网络。
Ben Thompson:所以重点其实是数据。
Alexandr Wang:对,数据非常重要。从一个问题到另一个问题,唯一有变化的就是数据。作为程序员,你会发现,数据才是核心,你自己对问题的看法并不重要,关键是模型训练时用的数据集。
当时模型达到了一定性能后,我想,我得让这个模型变得更好。然后就开始考虑该怎么改进这个数据集。
接着,我发现这过程非常痛苦:你得检查所有图片的标签是不是对的,然后琢磨怎样找到新图片,然后再给新图片贴上标签,整个过程非常折磨人。
2016 年我开了公司。当时大家都意识到,平台能让复杂难用的东西变得简单好用。我想,我们应该让现在这种混乱、复杂、折磨人的开发者体验变得更好,如果我们能做到这一点,肯定会非常成功。Scale 证明了这一点,我们变成了最成功的企业之一,Stripe 这种企业也是。
Sarah Guo:你好像准确地看到了深度学习热潮的开始,当时大多数人还没有意识到这一点。我记得你当时在我家工作,那时候你发现自动驾驶公司已经把它们的钱花在数据上,其他人都还没注意到这些。
现在 Scale AI 显然不仅仅局限于自动驾驶这样的用例了。从当时到现在,公司是怎么发展的?
Alexandr Wang:AI 是一项很有趣的技术,从核心的数学层面上来说,它是一种通用技术。你可以理解为,它基本上是可以近似任何函数的,包括可以接近智能。因此,它的应用非常广泛。
在过去的八年里,搞 AI 的一个挑战是,找到那些正在获得关注的应用,弄清楚怎样搭建合适的基础设施来支持它们。作为一个基础设施提供商,我们为这些 AI 应用提供用例数据。我们的任务是提前思考 AI 的突破性用例在哪里,并且在 AI 的火车开过来之前铺好轨道。
2016 年我们刚开始的时候,自动驾驶刚刚起步。当时还在 YC,Cruise 被收购了。我们听了一些早期创业建议,决定专注于一个领域,做了第一个支持传感器融合数据的数据引擎,能结合 2D 和 3D 数据,比如说激光雷达和内置摄像头这些,并且把它们集成到汽车上。很快这个技术就变成了行业标准,像通用汽车、丰田和斯特兰蒂斯等公司用上了。最开始的几年,我们只专注于自动驾驶和少数机器人的用例。
大约在 2019、2020 年,情况开始变得有趣起来,那是语言模型和生成式 AI 出现之前的一段时间,充满了不确定性。我们当时不清楚未来的 AI 用例会是什么。
所以当时我们开始专注于政府应用,这个领域变得越来越重要了。我们做了第一个支持政府数据的数据引擎,主要用来处理地理空间、卫星和其他高空图像。这推进了美国国防部的第一个 AI 项目。
差不多在那个时候,我们也开始涉足生成式 AI。我们与 OpenAI 合作,在 GPT-2 的基础上进行了第一次 RLHF 实验。那时还是 RLHF 的初期阶段,模型没给我们留下太深的印象。不过,我们意识到 OpenAI 有一群聪明的人才,所以决定继续跟他们合作。后来,GPT-3 集成了所有这些技术,发表了 InstructGPT 模型的论文,这是 ChatGPT 的前身。
2022 年,ChatGPT 和 Databricks 的 Dolly 2 问世。我们公司也开始专注在生成式 AI 上,成为生成式 AI 的数据工厂。现在,我们的数据工厂几乎支持所有主要的大型语言模型,跟 Open AI 、Meta 和 Microsoft 等公司密切合作,支持他们的 AI 开发工作。在这段时间里,AI 爆发了。从 GPT-3 到现在,我们的系统已经具备了复杂的推理能力、多模态和多语言功能。这个过程非常震撼人心。
Elad Gil:目前你们在跟许多科技巨头、政府和汽车公司合作,企业客户和平台们在生成式 AI 上逐渐冒出头,主权 AI 也在兴起。你们如何应对这些新的用例?
Alexandr Wang:在自动驾驶时代,我们只是打造了一个有价值的特定用例;但现在,AI 是一种的通用技术,可以覆盖的范围非常广。这是我第一次真正感觉到,它可以应用在非常多商业场景中。我们在思考支持这个巨大行业的基础设施需求是什么,技术的发展趋势是什么,以及怎样实现数据的充裕。
一个经常被提到的问题是:我们会不会用完 Tokens,如果用完了怎么办?
我们的任务就是,确保有足够的 Tokens,在整个系统中保证数据的充裕。
大型语言模型的关键在于数据的扩展能力。从 GPT-4 到 GPT-10 的路上,最大的瓶颈之一就是数据。我们是否有足够的数据来实现这一目标?
作为一个社区,我们已经用尽了互联网上的所有简单数据。现在,我们需要生产高质量标注数据,它们是能生产前沿数据的、真正对模型有用的数据类型。
现在的大语言已经不能再从 Reddit 上的各种评论中学到更多东西了。它们需要真正的前沿数据,需要来自全球的数学家、物理学家、生物学家、化学家、律师或医生的推理链数据;需要企业或消费用例中代理人的工作流数据,甚至是编码的数据;需要多语言数据,涵盖世界上所有语言的数据;需要所有多模态数据,比如视频数据、音频数据的集成,以及其他企业和工业中的复杂数据类型。
我认为,我们的行业有一个非常大的使命,就是弄清楚怎样生产和生成更多 Tokens,来推动行业的未来发展。在这一点上,我认为有几个来源或答案。
首先,我们需要世界上最聪明的人贡献数据。这项技术很有趣的一点是,非常聪明的人,比如博士、医生、律师或各领域的专家,通过生产高质量的数据来为算法提供燃料,即使只是稍微改进了模型,都有可能在未来的应用中产生巨大影响。
Elad Gil:Google 的初衷是组织世界的信息,并让它们变成普遍可访问且有用的。他们会从图书馆的档案里扫描书籍,通过各种方法收集世界上的信息。这也是你们正在做或者帮别人做的事,对吧?你们在讲的是,专家知识在哪里,我们怎样把它们转化为数据,然后让机器使用这些数据,最后让人们能够使用这些信息。
Alexandr Wang:向我们贡献数据的人也很高兴。经济上的原因之外,还有一个非常有意义的动机,就是我如何利用我的专业知识、洞察力和智慧来推动整个 AI 技术的发展,推动人类进步和知识的发展。我认为这是一种深刻的科学动机。
Ben Thompson:你在开始做 Scale AI 的时候,发现数据有很大的影响力,这个领域没人涉足,有解决混乱问题的机会。当初你是怎么认为数据标注会起作用的?随着时间的推移,实际情况和你最初的想法有什么不同?
Alexandr Wang:我认为核心概念是,数据标注就是把一堆数据和人类的认知结合起来。你希望人类的认知输出能和那些数据结合,作为模型或其他 AI 学习的标签。
Ben Thompson:这种输出可以简单到只是说出图片里有什么,或者类似的东西。
Alexandr Wang:对。一些最基本的数据集就是描述图片内容、解释图片或回答有关图片的问题。随着时间推移,数据标注变得越来越复杂了。
我当初的想法是,如果你很简单地做这件事,比如你有一些图片,把它们展示给人看,然后让他们手动标记每一张图片,会有一定的效率;如果你能做出好用的工具,找到最适合这类工作的人,优化自动化流程,就能用专门算法自动完成大量工作。如果你能处理好所有这些部分,就可以在生产数据集方面大大提高效率,或者在质量上有很大提升。我总是把它想象成帕累托曲线,成本与质量是两个轴心,整个游戏就是在固定预算的情况下,看看能达到多高的质量。
Ben Thompson:你之前是工程师背景,认为这是一个技术问题吗?还是从一开始就知道这会变成一个人力资源问题?
Alexandr Wang:这很有意思,我记得当初在搭建平台的最初版本时,想的其实是,「很简单,有了它之后,只需要让人们过来用,所有问题就都解决了。」这是个非常天真的假设,因为现实中,平台上行为的差异性和管理的复杂性都会带来很多挑战。
所以我们很快意识到,其实这主要是个巨大的运营问题。比如,70% 的挑战并不像我刚才描述的那么性感,包括构建自动化工具、创建最佳工具、增加更多处理过程中的自动化等等。
这 70% 其实是,如何保证所有参与人员接受良好的培训?如何保证他们表现优秀?如何正确引导他们完成任务?如何有效沟通?
Ben Thompson:我很惊讶 70% 这么低。我们在谈论多少人?有个漂亮的大数字能涵盖目前帮助 Scale AI 达成目标的人数吗?
Alexandr Wang:在我们所谓的「专家工作」上,可能有大约十万人左右。
Ben Thompson:但也有很多非专家的工作,对吧?
Alexandr Wang:是的。谈谈历史吧,我见证了许多对技术不同形式的兴奋浪潮。当我们在 2016 年开始时,所有的资金都投向了自动驾驶汽车和自动驾驶技术,而 AI 其他方面几乎没有拿到资助。自动驾驶得到了数十亿美元的支持,其实这和现代生成式 AI 公司没什么区别。自动驾驶关心的问题大多是图像识别、物件侦测以及这些汽车的路径规划。你只需要让这些汽车能非常精准地识别周围事物,因此涉及到如何理解所有传感器数据——包括雷达扫描、图像、视频等,辨认出人群、行人、单车手、柱子、建筑指示牌等等。
我们可以非常有效地利用全世界各地的人完成这项工作,不需要太多特殊知识或专门技能。接着,我们开始涉足需要特殊知识的工作。
Ben Thompson:这是否可以被视为一个阶段,Scale AI 更像是一个市场?在这里你跟需要这些数据的公司建立联系,然后发现这是一个稀缺领域,没人愿意为此开一家公司,去全球找承包商去做数据标记,说「那是停车标志」,「那是行人」,或者其他什么。
Alexandr Wang:我认为 Scale 是一个伪市场,我们不是一个完整的市场。我们确实促成了所有交易,我们做的是,把模型或 AI 开发者的数据需求变成需要由一群贡献者完成的任务。
这些贡献者需要做什么或他们需要什么会随时间变化,但核心是,保证我们有足够多、范围足够广的合格的贡献者,来确保最后的数据是能够交付的。
Ben Thompson:你谈到了效率和让工作流运转起来,但是否同时有大量的运营工作要做?成为一家工程技术公司与成为一家大规模外包的运营公司之间的平衡,是怎样的?
Alexandr Wang:是的,对于这样的业务来说,所谓的「零阶段」就是你要运筹帷幄地解决每个问题。我认为如果你停在这个阶段,用运筹帷幄的方式解决所有事情,那你走不远。
Ben Thompson:这实际上是一个明显的「护城河」。在这种程度上,它只是一个非常困难和混乱的问题,如果你解决了那些问题,没有人会费力去重新发明飞轮。
Alexandr Wang:绝对是。我记得在我们早期的投资说明书里有一张 ppt,只是放了一张系统设计图表,展示了所有需要解决的小问题及所有需要协同工作的小系统,无论是运营还是软件或者其他各种系统。从质量控制机制如何运作,到招聘机器如何运作,再到绩效管理系统如何运作,以及培训系统如何运作,都在这一张图里。这可能是你能想象到的最混乱的图表,而这其实就是重点。这张 ppt 的重点在是向大家展示——这就是我们的护城河。
这套系统非常复杂。当然其他人也可以尝试做这件事,但不管怎样,他们都必须解决这一大堆凌乱的问题,不可能绕开问题本身的复杂性。
Ben Thompson:市场的需求如何转变?起初是针对自驾车的图像做数据标记,现在全都是基于文本的模型。从图像转向文本涉及到哪些内容?
Alexandr Wang:广义上讲,随着模型智能的提升,转变是朝着更高层次的专业知识发展。基本上,我们是从自动驾驶开始的。大约从 2020 年开始,我们从做着几乎是世界上任何人都可以完成的任务,像 Uber 司机一样,面对着非常广阔的市场。后来逐渐转向了需要专业知识和能力才能完成的任务。
这种数据阶段的转变让我们顿悟:在极限情况下,几乎所有的数据标注最终都会变得专业化。技术发展的轨迹是,先建立起通用能力,然后把这些能力特殊化,应用到具体的使用场景和行业中,这样才能真正创造经济价值。
Ben Thompson:最开始的任务超级复杂,你帮很多人解决了这些问题。那么,接下来的工作也很难吗,还是只是需要有合适的专家就好了?
Alexandr Wang:不,我认为其实更难了。首先,还是要面对那些老问题,必须处理运营问题,让一个复杂的团队能高质量地工作,为算法提供高质量的数据。但现在还得同时面对另一个难题,就是要确保你有一个涵盖各种语言、各种学科领域、不同职业和专长的网络,真正覆盖所有人类知识。
我打个比方,想想 Airbnb。我们可以把 Airbnb 看作一个大市场,但实际上它是由很多小市场或分散的市场组成的。打败 Airbnb 之所以这么难,是因为你不能只整合他们供应链中的某一个部分去跟它竞争,而是要找到办法把他们已有的房东和所有细分市场整合起来。我认为,如果说有什么能让商业模式从被动防御变得更有吸引力,那就是这种整合的能力。
Ben Thompson:什么才是差异化的关键呢?Airbnb 能吸引这么多细分子市场,可能是因为有消费者需求,这就成了吸引供应商加入他们的动力。当我们谈到规模时,这里有个先有鸡还是先有蛋的问题。是你们先表示「我们有需求而且有钱付给这些专家」,然后专家们就会意识到这一点;还是先表示「我们有专家,能确保供应量」,然后才产生需求?
Alexandr Wang:我认为两者都有。一般来说,我们聚集了市场上很多需求,所以有资源和能力去招募各种语言、领域和工作类型的专家,搭起一个广阔的网络。然后它会形成一个自强化的循环,因为一旦有了这个有广度也有深度的专家网络,新模型的开发人员就能快速启动新数据集,之后还能利用相同的专家网络获取其他新数据。所以很难说这个循环是从哪开始的,但它一直运转得不错。
Ben Thompson:如果数据是长期来看最大的区别因素,而你又是数据之王,每个人最后都是不是都会得到相同的数据?你有没有觉得,你在把整个市场商品化?如果有人想建立一个高度差异化的模型,为了做出一些真正与众不同的部分,他们是不是需要重新做一遍你们做的事?
Alexandr Wang:有两点需要考虑。
第一是这个专家市场以及它执行高质量工作的能力,这方面我们已经投入了巨额成本,很难完全复制;我不认为我们的客户们想去做同样的事。很多客户真正看重的是,他们能够通过人类专家来产生数据,用各种方式优化这些数据,让他们的算法达到最好的效果。他们真正的创新是利用这些专家,以不同方式产生数据,来进行系统性改进。
Ben Thompson:他们会提供特定方法让你去实施吗?还是怎样的合作关系?
Alexandr Wang:两者都有。这些方法涉及到与客户模型的紧密整合。我认为真正与差异化相关的层面是,怎样更好地利用人类专家。
早期方法的核心很简单,但现在仍然代表了技术前沿,比如我之前提到的 RLHF。举例来说,如果给人类看模型生成的两个版本的答案,你问「我应该去意大利哪里玩?」,接着由一个人类专家选出他们认为更好的一版答案,然后重复这个过程。显然,这涉及到与客户模型的紧密整合,通过足够大的样本量来学习,在粗略的水平上理解什么是人类认为更好的,然后通过增强学习沿着那条优化曲线做调整。这是最简单的形式,现在这个方向上已经有了很多创新。
其中一个创新是流程监督(Process Supervision),出自 OpenAI。你对模型提问数学问题或其他内容时,它会生成完整的推理链。比如说「三角形边长 3 和 4,求斜边」,接下来它会开始推理,「这是个三角形,表示可以用勾股定理来解,如果用勾股定理,那么 3 的平方加 4 的平方等于 X 的平方,然后解出 X」。然后一位数学专家会过来说,「哦,你在这个步骤出错了,而且这就是你犯的错误」。接着各个实验室都在沿着这条曲线进行竞争,追求更高水平的创新。
Jordan Schneider:数据作为 AI 发展三大支柱之一,当前的进展如何?
Alexandr Wang:前面谈到,现代 AI 是由算力、数据和算法这三个支柱支撑起来的。第一是计算能力的提升,包括摩尔定律,让我们拥有了比过去更多的计算资源。第二是数据量的增加,自 2010 年代我们开始使用深度学习和神经网络以来,数据量一直在稳步增长。
第三是算法的创新。当前的大型语言模型分为两个阶段进行训练——预训练和后训练。预训练阶段,你会用成千上万的 GPU 下载互联网的数据,训练一个巨大的神经网络,最后会得到一个超级智能但不实用的模型。然后在后训练阶段,你会优化模型,让它针对某些实用的功能表现更好,这阶段更依赖于高质量的专家数据。过去两年的大部分进展都来自这个后训练过程。
Jordan Schneider:后训练的潜力有多大?
Alexandr Wang:研究界对此有不同看法。有些人认为后训练只是挖掘出模型中已有的智能,但不能给它新技能。另一种观点是,通过后训练,GPT-4 就能实现很大一部分 AGI 目标。
最近的很多进展表明,AI 已经非常接近解决国际数学奥林匹克竞赛级别的问题的能力。如果我们能够后训练 GPT-4 来解决研究生级别的数学问题,那么它可能就已经具备了几乎能做任何人类能做的事情的潜在能力。
Jordan Schneider:你提到专家数据,如果你收集了数千个重要的数据点,并将它们输入一个具有基本智能的模型,那么这个模型在特定用例上的表现突然会提高 50% 到 100%。听起来我们需要花费大量劳动力来制作这些精细的专家数据集,同时还要制作大量合成数据。你认为我们需要为数据壁垒建立一个「护城河」吗?
Alexandr Wang:让我先解释一下「数据壁垒」这个术语。简单来说,这意味着我们已经用了互联网上几乎所有的数据,而互联网生成新数据的速度极其缓慢。我们已经撞上了数据墙,因为我们使用了几十年来捕获的数据,但我们生成新数据的速度不够快。
未来 AI 进展的很多方面,取决于我们能否成功突破这个数据壁垒以及如何超越它。一般的理念是我们需要数据的丰富性。就像我们在芯片供应链方面突破了许多限制一样,我们需要在数据供应链方面也做到这一点,我们需要建立大规模数据生产的手段。
有多种方法可以做到这一点。第一种是专注于质量。生产最精良的高端专家数据集——我们称之为前沿数据——并找到一种大规模生产这些数据的过程。
第二种是为这些模型构建合成环境。这会是一个类似游戏的环境,模型可以在里面自主互动,并通过强化学习进行学习。这些环境需要由人类专家和世界上最聪明的人来打造。在这个过程中,没有免费的午餐。
第三种是合成数据。这个方法并不差,但总体而言,合成数据只是你所有现有真实数据上的一次性提升。也许你可以将现有数据的数量增加三倍,但到某个点,你只是在重复同样的内容。你没有获得新的信息内容,这对模型的改进效果有限。
归根结底,我们受到前沿数据生产以及强化学习环境生产的限制。
我不认为有任何情况会让 AI 永远陷入困境,但数据墙是真实存在的。我们需要在攀越数据墙方面有所创新。这要靠人类的创新、算法改进和数据生产。
Sarah Guo:我认为数据缺失问题正在逐渐显现。过去十年里,科技领域最大的变化就是各种流程的数字化,很多人可能认为数字化已经完全实现了。但作为过去五年这一领域的投资人之一,我发现的一个大问题是,数据实际上并没有被很好地捕捉到,对于几乎所有你能想象到的 AI 用例都是这样。在公司成立的最初六个月里,问题总是,我们从哪儿找到这些数据?尽管现有的软件和服务供应商已经专心做这件事很多年,但其实也没有捕捉到你想喂给模型的信息。
Ben Thompson:我觉得,当我们讨论「如何推动这些模型前进」时,会涉及到一些智力上的惰性。因为现阶段的模型还没有达到我们希望它们未来具备的能力,所以我们必须相信会有大量的创新。
我们需要真正创新的方法,包括混合使用人类、AI 和合成数据,以达到最佳效果。AI 是一个伟大的生产力工具,是否有办法利用 AI 来提高生产力,让人们更快地生成更多数据呢?比如说,你给一个 prompt,比如「X、Y 或 Z 的道德性?」,AI 生成答案的初稿,然后由专业人士进行几轮审阅和编辑。如果用 AI 辅助,这个过程会快得多。我有个朋友是平面设计师,他对 AI 生成图像和创意特别感兴趣。你觉得这是不是类似的情况?人类的价值是不是更多体现在编辑的过程中,而不是初始创作阶段?
Alexandr Wang:用电影《沙丘》来比喻,数据生产很像是香料生产,它会是所有未来 AI 系统的命脉。来自最优秀、最聪明的人的前沿数据是一个关键来源。专有数据也是一个非常重要的来源。有一个惊人的事实是,摩根大通的专有数据集有 150PB(拍字节,1PB=1024TB),而 GPT-4 训练的数据不到 1PB。显然,企业和政府也有大量专有数据,可以用来训练非常强大的 AI 系统。
关键的问题是,合成数据的未来是什么?合成数据怎么产生?我们的观点是,关键在于我们称为「人机混合合成数据」的东西:构建一个混合人类和 AI 的系统,让 AI 承担大量工作的同时,让最聪明的人类专家和顶尖推理专家贡献他们的见解和能力,确保生产出高质量的数据,推动模型的未来发展。
同时,我觉得现在 AI 发展的最大障碍其实就是所谓的前沿数据。要推动模型的进步,需要的就是这种最新、最有价值的前沿数据,但这些数据通常跟网上现有的数据差别很大。要让模型变得更强大,比如说变成一个表现出色的助手,最大的难题就是,大量展示模型在当助手时该怎么做、怎么思考、遇到问题时怎么办、怎么自己纠错、用哪些工具、怎么用草稿本等。这些方面的数据基本是没有的。
Ben Thompson:网上的数据都是最终结果,中间的步骤和原因都没记录下来。
Alexandr Wang:对,人类在这些中间步骤上几乎从不做记录,也几乎从不完全解释展示我们的工作过程。所以,要让模型达到更高的水平,缺的就是这些前沿数据、Agent 行为数据和推理链条等必需的内容。
我觉得生产这些数据的手段确实非常重要,就像产业界花很多时间思考芯片厂(fabs)和芯片生产,计算产能以及电力消耗等关键因素一样,我们也需要深入思考数据生产的方式,确保我们能生产出所有可能需要的、最有竞争力的前沿数据,供模型使用。
Ben Thompson:你从非常初级的、主要是图像的标记开始,然后逐渐变得专业化。接下来,第三步是什么?是不是从数据标注或数据生成上升到参与 RLHF 过程?这里会有大量新工作吗?还是你们仍然在做大量的原始数据生成?
Alexandr Wang:这里的界限有些模糊,我们的客户可能仍然把这整个过程视为数据标注或数据生成。但复杂性会随着时间显著增加,并且我认为会持续增加。最重要的是如何最大化地改善模型。
Ben Thompson:这是 Scale AI 在解决的事,还是模型训练者们想搞清楚的?Scale AI 在这个过程中扮演了什么角色?模型训练者什么时候会从数据标注员那儿接手工作?数据标注和模型优化之间的平衡点在哪里,什么时候从前者过渡到后者?
Alexandr Wang:本质上我们是深度合作的。模型训练者的工作是探索新的算法、思考怎么解决具体问题;我们的工作是提供正确的数据和其他资源,确保他们能顺利完成目标。有点像我们面向开发者的模式,开发者们负责不断迭代,找到开发的独特方法,我们负责提供支持他们创新和开发的基本素材。
Ben Thompson:这是不是说明了为什么在小型模型上更容易取得重大进展?因为如果你想要优化一个小型模型,合成数据可能比原始数据更好,因为它经过了某种压缩步骤,但对于大型模型可能就不太适合。这样理解对吗?
Alexandr Wang:如果想让你的模型在其他模型已经很擅长的事情上表现得也很好,那么合成数据也是很重要的一部分。当然,在生成合成数据的过程中,还有很多细节要注意,通常也需要不少人工生成的数据来确保结果准确。
Ben Thompson:假设有个模型训练者来到你这里,他们开发了新的 RLHF 流程或 RLHF 2.0 之类的东西。然后另一个模型训练者也想用这个流程,谁来决定这些流程的所有权和使用权?这些流程是像台积电那样,「我们找到了制造更快芯片的方法,大家都能受益」,还是像苹果那样,「我们在芯片里投入了专有技术,那是我们的,不会共享」?
Alexandr Wang:总体来说,我们是平台提供商,我们的做法是不共享。如果某个实验室有了创新,在他们自己决定公开之前,我们不会与其他任何人分享。
Ben Thompson:这些突破在实际操作层面上,与那些技术上的知识产权突破相比,有什么不同?
Alexandr Wang:如果我们谈到基础层面的突破,就涉及到如何组织人员、确保他们得到合适的培训以及有效地进行绩效管理等方面,这些显然会被整合进我们的平台中。
Ben Thompson:假如你们找到了一个有效的用户界面导航或训练模型的方法,那怎么区分创新洞见和操作问题?哪些地方是需要深度理解和创新的,哪些只是执行问题,比如培训一个模型来导航用户界面?
Alexandr Wang:好问题。关键在于,当你考虑数据处理的基础工作时,真正需要考虑的是:「如何以各种方式调度专家,来生成这些模型所需的数据?」以及「如何正确操作这些接口?」我们不会默认把从一个客户那构建起来的接口泄露给另一个客户。
Ben Thompson:这是不是意味着,有些接口是他们提供的,你们只负责提供人力?还是所有事情都在你们自己的平台上运行?我对这里的运作机制很好奇。
Alexandr Wang:基本上都是在我们的平台上运行,但这些接口的设计过程通常是深度协作的。他们通常会告诉我们:「这是我们想实现的目标,它应该长成什么样子」,然后我们会根据我们的专业知识实际设计出来。用云计算来类比很合适,因为最后每个选择 AWS 的客户都没有真正决定他们云端架构的设计,有互联网顾问帮他们做所有的底层设计决策。
Ben Thompson:目前 Scale AI 刚募集到 10 亿美元,估值达到了约 140 亿美元,交易额翻倍增长。但相比几年前,二级市场上的表现其实有所下滑。这是 AI 炒作的影响吗?还是因为未来业务有重大转变?从投资者的角度看,未来的机遇在哪里?
Alexandr Wang:核心就是成为「数据领域的 Nvidia」。无论是利润还是企业规模,Nvidia 都非常可观;我们希望成为 AI 堆栈中的数据支柱。AI 需要三样东西:算力、数据和算法,我们的目标是成为数据领域的平台玩家。
Ben Thompson:你们更像是专家还是参与者?就像台积电(TSMC)一样?
Alexandr Wang:我们的参与者角色非常重要,确实可以把我们视作台积电,从某种意义上来说。大家现在讨论的更多是计算密集度和计算瓶颈,但如果展望未来,数据瓶颈问题会越来越突出。
Ben Thompson:全球各地都在拼命挖掘数据,需求非常迫切,必须有人来解决这个问题。你们在过去八到十年都在做这件事,虽然不一定能达到 Nvidia 那样的利润率,但已经在大量员工的努力下完成了任务。
Alexandr Wang:是的,我们现在的收入只占 Nvidia 的 1%,主要原因是大多数预算都花在了计算资源上。如果将来数据真的成了最大的瓶颈,那么预算也会逐渐转向数据。现在只占 1% 的预算,就算只增加到 5% 或 10%,也会是巨大的增长。
Ben Thompson:讽刺的是,Scale AI 背后其实隐藏着大量琐碎的工作,被用心培养出来的物理奥赛选手(指 Alex),其实要管理成千上万的小问题。
Alexandr Wang:我们的一位投资者彼得·泰尔曾经在讨论公司时说:「Scale AI,这名字真棒。」这有点像是个玩笑,但他的投资理念就是先看名字好不好。这确实触及了核心问题。我们在有现在的规模之前就取了这个名字,结果发展很顺利。就像 Nvidia 和 TSMC 以及整个供应链为巨大算力提供支撑一样,我们的工作是确保在数据方面也能达到同样的规模。LLM 中的第一步是使用整个互联网的数据,但下一步是,必须找到新的数据生产方式。
我们公司的使命是服务整个 AI 生态系统以及更大范围的 AI 行业。作为基础设施提供商,我们就是要尽可能多地支持整个行业的蓬勃发展。一个重要部分是,如何成为这个生态系统中的关键一环,并围绕这个,推动行业未来的数据工厂建立更多的生态系统。这也是为什么我们引入了其他基础设施提供商,比如 Intel 和 AMD 这些公司,还有行业中的重要玩家,比如 Meta 和 Cisco,它们都在为未来的技术打基础。
我们认为技术堆栈包括基础设施、技术和应用。我们的目标是利用我们的数据能力,增强技术堆栈的每一层,同时,在更广阔的行业视角下,建造未来数据所需的基础。
我觉得现在真的是个激动人心的时刻。像之前提到的,从 GPT-4 到 GPT-10 之间的障碍是什么?我们希望通过投资来推动这项伟大的技术进步。你知道,人类在计算方面已经投入了数百亿甚至上千亿美元。我们选择继续融资的重要原因是,数据生产也需要大量投资来推动前进。
Ben Thompson:Nvidia 很吸引人,但你们的业务中最吸引人的部分恰恰是那些不被关注、人们不喜欢考虑、也不愿讨论的地方;正因为没人关注,反而变成了巨大的优势。
Alexandr Wang:是啊,挺有趣的。很多在数学竞赛中认识的人都在 AI 产业里有了一席之地,比如之前在 OpenAI 的 Paul Christiano 和其他很多人。OpenAI 总裁 Greg Brockman 曾经在夏令营里做过演讲,感叹说他们在研究层面完成的工作简直令人难以置信。对我们来说,能在幕后完成这些琐碎的工作并且推动产业发展,也真的很让人满意。
Elad Gil:Meta 的一些研究很有意思,证明了减少数据量可以让模型更好,结果更准确,模型更小,成本更低,速度更快。所以你们选择跟企业合作,找出真正能提升模型能力的数据,这涉及到信息理论问题。未来你们有什么发布计划?
Alexandr Wang:我们在为生态系统开发评估系统。我们将推出私有的独立评估,并创建主要大型语言模型的排行榜。这些评估会定期进行,每几个月更新一次,持续进行基准测试,监测模型的表现,并且不断增加新的测试领域。我们会从数学、编码、指令跟随和对抗性能力等领域开始,慢慢进一步增加测试的领域。我们非常期待这件事,希望这会像是 LLM 的奥运会,但不是四年一次,而是几个月一次。此外,我们还有一个令人兴奋的发布计划,专门为政府客户推出一些 agent 功能。政府部门想用 LLM 来写报告、填写表格或提取信息,这些任务很枯燥,模型完全能胜任。
Sarah Guo:作为一家不断扩张的公司的 CEO,你经常思考的是什么?
Alexandr Wang:听起来可能有点老套,但我在考虑的是,我们在这项技术上有多早。一方面我们感觉已经很晚了,因为科技巨头在投资,整个领域中有各种投资,市场在明显的用例上看起来竞争很激烈。但从根本上说,我们还处于非常早期的阶段,因为技术只达到了未来能力的 1/100 或 1/1000。作为一个社区、一个行业和一个社会,我们还有很多章节没写完。
所以,作为一家组织,我们思考很多的是灵活性:如何确保在技术不断发展的过程中,我们能够继续适应技术的发展?
Ben Thompson:创立公司时的你还很年轻,需要解决全球范围内的数据问题,还要面对美国本土的数据问题。如果让你重新再来一次,你会做出什么不同的选择吗?
Alexandr Wang:我觉得我们做得还不错,但如果再来一次,我会更专注于 AI 的自我颠覆性。2016 年我们开始涉足卷积神经网络时的一些动作,现在看起来已经过时了,相对于今天的大型语言模型来说并不重要。
六年后回头看时,我们可能会发现完全不同的模型范式和 AI 范式。技术进步的速度非常快,导致它会多次自我颠覆。我们应该投入更多资源进行投资,向新的 AI 方法努力。就像黄仁勋的 Nvidia,他们原本主攻游戏业务,后来转向 AI 训练问题,因为看到了它的巨大吸引力,也建起了护城河,让它成长为全球最大的企业之一。
Sarah Guo:当模型表现得已经相当好,甚至比人类的表现还好的时候,你会怎么做?可以从数据和评估的角度谈谈这个问题吗?
Alexandr Wang:我认为从哲学上讲,问题不是模型是不是比人类表现得更好,而是人类和模型结合在一起能不能输出比单独模型做得更好的东西。我认为在很长一段时间内,情况都会是这样,人类智能仍然是对我们构建的机器智能的补充,人和 AI 能结合起来做一些比模型单独完成的更好的东西。
Sarah Guo:人机智能是否互补?我们曾经讨论过这个问题。我对此保持乐观。
Alexandr Wang:我的简单观点是,当我们看机器智能时,比如这些模型,你总会看到一些非常奇怪的东西。比如 逆转诅咒*。有很多迹象表明,它不像人类智能或生物智能。我认为这是人类的一个优势,人类智能有一些特质,跟我们训练这些算法的过程完全不一样。
逆转诅咒:当这些模型在训练过程中被喂入「a 是 b」的数据时,它们并不能自动反推出「b 是 a」。
那么,这在实践中是什么样子呢?如果一个模型生成了一个答案,人类如何评价这个答案来改进它?人类专家如何指出其中的事实错误或推理错误来提高它的质量?人类如何在长时间内引导模型,生成非常正确和深入的推理链,并且推动这些模型的能力向前发展?我认为这涉及到很多内容,我们用全部时间思考的是,人类专家和模型的合作将会怎样帮助我们不断推动模型能够完成的事情的边界。
Elad Gil:你觉得人类的专业知识在这方面还能起作用多长时间?比如说,Google 发布的 Med-Palm 2 模型,它的表现比普通医生还好。虽然心脏科医生能给出更好的结果,但如果你直接问 AI 心脏科的问题,模型的表现甚至比医生专家评价的还要好。所以,模型在某些能力上已经超过了受过专业训练的人类。你觉得这种情况会持续多久?人类的专业知识什么时候会失去作用?这会永远不会发生吗,还是会在三年内发生?
Alexandr Wang:我认为永远不会发生。因为人类或生物智能的一个关键的特点是,能够在很长时间内进行推理和优化。这是生物学上的问题,作为生物体,我们的目标是优化我们的一生,优化繁殖等等。我们有这种能力,可以制定长期目标,并且在很长时间内持续优化、调整和推理。当前的模型没有这种能力,因为它们只是从人类智能的片段中训练出来的。它们在短期内可以表现得很好,但在长时间里的持续表现就很糟糕了。所以这种生物智能的基本特质,我认为只能通过时间的推移,通过数据的直接转移来教给模型,从而为这些模型提供支持。
Sarah Guo:你不认为会有架构上的突破来解决这个问题吗?
Alexandr Wang:我觉得会有一些架构上的突破,这会显著提高性能,但从本质上说,它们并没有被训练为有能力能在任何方面优化长期目标的模型,我们也没有环境能让它们在长时间内优化这些模糊的目标。所以我认为这是一个基本的限制。
Sarah Guo:你认为 AGI 会很快实现吗?
Alexandr Wang:很多行业人士认为 AGI 会突然间实现,但我认为这是一个逐步解决问题和建立数据飞轮的过程。我觉得这对社会来说是好事,因为会有时间来适应技术的进步。通向 AGI 的道路更像是治愈癌症而不是开发疫苗,路上需要解决一堆小问题,这些问题之间没有太多关联。就像治愈癌症一样,你需要深入研究每一种癌症并独立解决它们。最终,我们会发现我们已经通过治愈癌症建成了 AGI,但这个过程是一个缓慢解决各个问题的过程。
Leopold 相信 AGI 将在 2027 年实现,我个人觉得可能性不高,但它仍然在可能的范围内,所以你必须认真对待这个结果。你需要所有的支柱——算力、数据生产能力和算法能力——共同提高。我认为将这些结合起来需要的时间会比我们预期的时间长一点,但不会长太多。
Scale 起步于自动驾驶汽车行业。十年前,有很多人说会在两年内有完全自动驾驶的汽车。他们每年都这么说,直到人们不再相信他们。然后市场崩溃了,但是公司仍然在研发。现在,自动驾驶汽车公司 Waymo 在旧金山、洛杉矶和菲尼克斯有了摸得到能体验的自动驾驶车。只是他们花了 10 年,不是所有人承诺的两年。
这大概就是我的想法。AGI 的实现会比人们现在说的时间稍长,但不会需要 100 年。这是一一件会发生的事,我们需要为此做好准备。
Sarah Guo:你说的解决各个问题,是指普及 AI 多步推理*的能力吗?用蒙特卡罗方法*解决不了这个问题吗?我们在扩展上会遇到瓶颈吗?解决多个问题的关键是什么?
*多步推理指的是,处理复杂问题时,AI 通过多个逻辑步骤逐步推导出答案。
*蒙特卡罗方法基于随机抽样和统计分析,不依赖于复杂的推理步骤,而是通过大量随机样本来逼近问题的解。
Alexandr Wang:我觉得我们从这些模型中得到的普遍规律非常有限。即便是多模态,比如从一种模态到另一种模态,没有发生正向迁移,从大量的视频训练中得到的东西对文本问题的帮助不大,反之亦然。所以我们需要每个能力领域的独立数据飞轮来推动和提高性能。
Sarah Guo:你仍然不相信视频可以作为世界模型的基础吗?
Alexandr Wang:我觉得这是个好的想法,但还没有强有力的科学证据,也许未来会有。但现在看来,模型中没有太多的普遍性。所以我们需要慢慢解决很多小问题,最终实现 AGI。
Sarah Guo:Open AI 和 Google 的新发布有没有改变你对多模态、语音 agent 等技术的看法?
Alexandr Wang:你在推特上也提到过这一点,现在消费者对这些技术的关注度很高,确实很有趣。我觉得多模态技术很重要,这也表明对数据的需求还是很大。我们已经用尽了互联网数据,但缺少高质量的多模态数据来支持这些个人 agents 和使用场景。所以,随着我们希望不断改进这些系统和使用场景,我们需要解决这些数据需求,才能真正支持这些功能。
还有一个有趣的点是技术的融合。Open AI 和 Google 都在各自开发各种技术,从 Astro 和 GPT-4 的发布来看,它们展示的技术非常相似。我觉得实验室在技术上的趋同特别有意思,尤其是在同一个使用场景或愿景上。
Sarah Guo:我觉得可以有两种解读。一是,这表明有一个明显的技术发展方向,很多聪明的人独立得出了同样的结论。另一种是竞争情报收集得很好。
Alexandr Wang:是的,我认为两种情况都有可能,而且两者都是真的。
Elad Gil:之前我在 Google 做产品时,我们花了两年时间开发某个东西,发布的时候,别的公司也发布了类似的产品,人们就会说我们抄袭了他们。所以我觉得很多事只是巧合,这是整个行业的趋势。大家都知道多模态是个大领域,很多事情都需要很多年的努力。
Sarah Guo:这些技术也不是一周内就能训练好的,需要很长时间的积累。
Alexandr Wang:我一直在想,什么时候我们会有更智能的模型?多模态能力很棒,但更多是横向扩展,行业需要的是更智能的模型。我们需要 GPT-5 或 Gemini 2 这样的模型。我有点失望,因为我只是想要更智能的模型,能够支持更多的应用开发。
Sarah Guo:一年很长,我们先等到年底吧。
参考:
https://stratechery.com/2024/an-interview-with-scale-ai-ceo-alex-wang-about-the-data-pillar-for-ai/
https://www.youtube.com/watch?v=2SWRU7YOd6c&list=PLMKa0PxGwad7jf8hwwX8w5FHitXZ1L_h1&index=10
https://scale.com/blog/scale-ai-series-f
文章来自于微信公众号“Founder Park”,作者 “Founder Park”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0