今天,数据中心正处在这一趋势的中心
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:人工智能的发展如火如荼,但大多数人只看到应用的火爆。真正的支撑力量鲜为人知,人工智能的发展越来越离不开庞大算力的支撑。现在,每5座为人工智能而生的数据中心所消耗的电力,就相当于一个纽约市的消耗。本文将介绍关于AI数据中心的一些基础知识。文章来自编译。
现在美国的这波计算基础设施建设,算是史上规模最大之一了。
100多年前,我们见证了类似电网这样的建设(讽刺的是,这正是当今美国基础设施建设的瓶颈)。在电网建立初期,我们目睹了电厂的规模化(将电厂建得尽可能大以提高性能)、“天文数字般”的资本支出(CapEx)投资,以及电力成本的急剧下降。
现如今,我们正目睹数据中心的规模化、超大规模云计算公司的巨额资本支出,以及AI计算成本的急剧下降:
本文的关注重点是构建AI专用数据中心所需的基础设施。
“数据中心”这个词没法完全形容这些“AI工厂”的庞大规模。最大型的数据中心在土地、电力和冷却设备、建设成本、GPU和其他计算基础设施方面的花费可达数十亿美元。
这还没包括能源的成本。新的、最大型的超大规模数据中心消耗的电力高达1GW。要知道,纽约市的用电量也才是5.5GW。也就是说,每五个这样的超级数据中心,就等于给电网增加一个纽约市的用电负担。
数据中心的价值链大致可分为几个部分:数据中心的初始建设、支持数据中心的工业设备、数据中心的计算基础设施,以及为数据中心供电的能源。此外,还有一些公司拥有或租赁数据中心,为消费者提供最终服务。
AI数据中心价值链
在深入研究之前,我们应该了解一点数据中心的历史。
数据中心很大程度上是伴随着计算机和互联网而崛起的。以下介绍部分趋势的历史概览以及我们是如何走到今天这一步的。
最早期的计算模式跟今天的数据中心类似:有一台集中式的计算机,主要是用来解决计算密集型任务以及关键任务。
这里是两个早期的例子:
1.巨人计算机(Colossus):由阿兰·图灵(Alan Turing)为破解Enigma机而建造的计算机。(注:图灵还被认为是人工智能和计算机科学之父。他提出了图灵测试,用来测试AI是否具有真正的智能,去年ChatGPT通过了这一测试)。
2.ENIAC:由美国军方在二战期间设计的计算机,但直到1946年才完成。尽管巨人计算机早于ENIAC建成,但由于巨人计算机的机密性,ENIAC通常被视为第一台计算机。
两者都位于可以被视为“最早的数据中心”的设施内。
1950年代,IBM崛起并统治了计算领域,该公司推出了大型计算机,从而引领了其在科技领域的数十年主导地位,而AT&T是当时另一家占据主导地位的科技公司。
1969年,ARPANET发布,这个网络的目标是连接美国日益增多的计算机。ARPANET现在被认为是互联网的早期版本。由于是政府项目,所以其最密集的连接位于华盛顿特区附近。
全球50大数据中心(按电耗)
在1990年代,随着互联网的发展,我们需要越来越多的物理基础设施来处理急剧增长的互联网数据流量,其中的一部分需求通过作为连接点的数据中心来满足。像AT&T这样的电信公司已经建立了通信基础设施,数据中心业务的扩展对它们来说是顺理成章的事情。
不过,在数据传输方面,这些电信公司的关系跟当前垂直整合的云服务提供商的“竞合”有点类似。AT&T既拥有其基础设施上传输的数据,也拥有传输该数据的设备。所以,在传输容量有限的情况下,AT&T会优先传输自身的数据。其他公司对此很警惕,所以后来才有了Digital Realty与Equinix等数据中心公司的崛起。
在互联网泡沫期间,数据中心获得了大量投资,但随着泡沫破裂,这种增长显著放缓(这也是我们在推测未来数据时应谨记的教训)。
直到2006年,随着AWS的发布,数据中心需求才逐渐恢复增长。从那时起,美国的数据中心规模便保持着稳定的增长。
这种稳步的增长一直持续到2023年,这一年AI热潮席卷全球。据估算,到2030年数据中心的容量将会翻番(需谨记,这只是估算)。
训练AI的工作负载引发了对数据中心规模的新关注。计算基础设施之间的距离越近,性能表现越好。此外,当数据中心被设计成计算单元而不仅仅是装服务器的设施时,公司还可以获得额外的整合收益。
最后,由于AI训练不需要靠近终端用户,所以数据中心可以建在任何地方。
总结一下,当今的AI数据中心关注规模、性能和成本,并且几乎可以建在任何地方。
计算提供商(超大规模提供商、AI公司或GPU云提供商)要么自己建造数据中心,要么跟Vantage、QTS或Equinix等数据中心开发商合作,去找到电力充足的土地。
然后,他们会雇用总承包商管理建设过程,总承包商则会再雇几家分包商负责各个功能(如电力、管道、暖通空调等)并采购原材料。项目期间,工人会迁移到该区域。在大楼主体结构完成后,下一步就是安装设备。
数据中心的工业设备可以大致分为电力设备和冷却设备。电力设备从主开关设备开始,这是用来连接外部电源的,然后连接到配电单元、不间断电源(UPS)以及连接服务器机架的电缆。大多数数据中心还会备有柴油发电机,以备停电的不时之需。
第二类是机械和冷却设备,包括冷水机、冷却塔、暖通空调设备以及连接到服务器的液体或空气冷却系统。
计算基础设施包括运行AI训练和推理工作负载的设备。主要设备是GPU或加速器。除Nvidia、AMD及超大规模提供商外,众多初创公司也在争夺AI加速器的市场份额。
半导体初创企业融资情况
虽然CPU的重要性已不如从前,但它们在完成复杂操作和任务分配方面仍发挥着重要作用。存储设备用于存放芯片之外的数据,而内存则用来存储需频繁访问的数据。网络负责连接所有组件,包括服务器内外部的连接。
最后,这些设备将被安装在数据中心的服务器内。
能源供应链可分为以下几个部分:
1.能源来源 - 化石燃料、可再生能源和核能,能够产生电力的能源。
2.发电 - 发电厂将化石燃料转化为电能;而可再生能源则在更接近能源源头的地方发电。
3.输电 - 电力通过高压线路传输至目的地附近。变压器和变电站会将高压电力降低到适合消费的电压。
4.公用事业/配电 - 公用事业公司管理最后一公里的配电,并通过电力购买协议(PPA)管理电力输送。
通常所谓的“电网”就是指传输和配电系统,由地方管理。根据位置不同,这两处都可能成为电力传输的瓶颈。
能源成为AI数据中心扩展的关键瓶颈。
电力扩容并不容易,数据中心有两种选择:并网与离网。并网是通过电网输电,由公用事业公司分配。离网则绕开电网,比如现场用太阳能、风能和电池发电。更理想的情况是,在2.5 GW的核电站旁边建一座GW级数据中心!
并网的问题是电力扩容需要时间。下图显示了从源头申请电量到实际投入使用所需的等待时间。
拿到开工许可的时间(月数)越来越长
解决这些挑战不可避免需要采用多种组合方案。我们会在最后一节进一步讨论。
新一代的数据中心在规模、密度、速度和能耗方面都有显著提升。
“超大规模”数据中心不是什么全新概念。几乎每隔几年,就会有关于数据中心规模扩大的报道,从2001年的几兆瓦到2010年代的50兆瓦,再到2020年的“巨型120兆瓦”数据中心,如今则发展到了数吉瓦的超大规模。
这些吉瓦级数据中心不仅规模大,密度也更高,这样的系统要按照系统角度来设计。其核心问题在于摩尔定律放缓,也就是半导体在晶体管密度方面的性能提升难度逐渐增加了。因此,解决之道是将服务器,甚至将整个数据中心的组件尽量集成在一起。
实际上,这意味着数据中心被设计成一个集成系统,而不是由单太服务器组成的机房。这些服务器也要被设计成紧密结合的集成系统。
所以英伟达也卖服务器和POD系统,所以超大规模公司要建设系统级的数据中心,同时这可能也解释了AMD要做出收购ZT系统的战略选择。
看看英伟达的DGX H100系统,它既可作为单独的服务器使用,也可连接至其他GPU形成POD,甚至可连接至SuperPOD来增加连接数量:
英伟达还引领了“加速计算”趋势,也就是将任务从CPU转移出去,从而提升GPU、网络以及软件等组件的作用。
此外,AI的独特需求要求处理大量数据,所以数据存储能力(内存/存储)和快速传输大量数据(网络)变得至关重要。这就像心脏要泵血一样,GPU就是心脏,而数据是血液(所以谷歌TPU架构又被叫做“脉动阵列”)。
所有这些趋势共同构成了全球最强大的计算设备。这种计算能力带来了更大能耗、更大的热量产生以及对每个服务器更高的冷却需求。随着我们对计算能力需求的增加,这种能耗只会越来越大。
最先进设备虽然耗电更大,但能效比是提高的
以下列举了会从中受益的名单(不详尽),以及部分目前备受关注的领域。从建设变压器的技术工人短缺,到许可流程的自动化,各方面都存在瓶颈,整个供应链都很紧张。
显然,为支持此次扩充,能源基础设施需要提升。几乎每家科技公司都更倾向用并网的方式:这种方式更可靠且管理方便。不过,如果并网电力不可用,超大规模公司会考虑自给自足。比方说,AWS正在印第安纳州投资110亿美元设立一个数据中心园区,建设四个太阳能发电场和一个风力发电场(600兆瓦)来为数据中心供电。
从中长期看,我对两种能源瓶颈阶级方式最为乐观:核能与电池。这两者都可以为数据中心提供更具可持续性的能源来源。
核能的优点众所周知:清洁且稳定。不过,如何经济可行地建设核能是一大挑战,目前一些极具潜力的初创企业正在解决这一难题。
长时电池的创新会是可再生能源发展的重要一步。太阳能和风能的不足在于其间歇性,只有在风力或日照充足时才能发电。通过储存多余电力,在电力短缺时释放能量,长时电池可以缓解这一问题。
在工业领域,两种趋势尤其值得关注:许可管理的自动化以及液体冷却技术。很多人反映,拿到开工许可是扩容的瓶颈之一。
要想对数据中心和电力扩容,开发商需要拿到建筑、环境、城区、噪声等方面的许可,还可能需要地方、州以及国家各级机构的批准。此外,他们还需应对各地的优先购买权法律规定。在能源基础设施领域,这个流程更加复杂。许可管理软件公司如PermitFlow等在缓解这些问题方面大有可为。
AI数据中心的新一代技术的显著区别之一是服务器产生的热量增加。因此,新一代数据中心将采用液体冷却技术,而下一代可能会采用更为先进的浸入式冷却技术。
我们不得不承认,(1)英伟达在构建生态体系方面取得了巨大成功,(2)AMD在巩固其作为替代方案的地位方面也取得了显著成绩。从应用到软件基础设施,再到云计算、系统和芯片,英伟达在为AI构建技术浪潮方面做得极为出色。
提供AI计算和能源服务的Crusoe将是另一家会处在有利位置的公司。
最后,受益于数据中心扩容的计算公司应该可以继续在价值链中获得可观收入。从网络、存储到服务器,如果能够提供顶级性能,公司就会从此次大扩容中受益。
关于数据中心扩展的最终思考是:尽管这看似是一种新趋势,但其实这不过是计算发展史更长脉络的一部分而已。AI、数据中心和计算不应被看作是分割的议题。
就像山姆·阿尔特曼所说那样:
“人类历史可以简化为:经过数千年的科学发现和技术进步,我们终于学会了如何熔化沙子,加入一些杂质,以极其精确的方式在微观尺度上进行排列,形成计算机芯片,并用电去驱动,进而创建出能够生成越来越强大人工智能的系统。”
阿兰·图灵不仅是现代计算机的奠基人,也是计算机科学和人工智能的奠基者,这一点绝非偶然。这个趋势在过去100年创造智能的时间里一以贯之。而今天,数据中心正处在这一趋势的中心。
文章来自于“36氪”