ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
抢电、圈地、对赌,深聊科技巨头的千亿美元AI能源大战
9576点击    2024-05-15 17:41

听说,OpenAI训练GPT-6的时候,把微软电网给搞崩了?小伙伴们,你们有没有想过,生成式AI军备竞赛持续之际,AI会有多耗电吗?


OpenAI训练GPT-3大概消耗了1300兆瓦的电力,如果将这些电用来看网络流媒体视频,可以播放1625000小时,也就是185.5年。


我们再换一个方式呈现,研究人员发现,将大模型用于AI文生图,平均下来每生成一张图片的耗电量,就能把一个手机充满。


再来一个宏观点的例子,我们做这期视频的2024年,全美AI数据中心的耗电量将占据全美总用电量的2.5%。


但这,只是开始。硅谷的科技的大厂们:英伟达、谷歌、微软、亚马逊、Meta、特斯拉、甲骨文等一众巨头开始搭建大型数据中心之际,OpenAI直接联手微软打造了耗资1000亿美元的数据中心“星际之门”(Stargate)。



随着上万张GPU显卡集群成为训练生成式AI的标配,硅谷开始卷多模态大模型,Scaling law(规模法则)依然是万能解药,可想而知,耗电量会指数级上涨。


欢迎大家来到硅谷101,这期内容我们就来聊聊,AI发展将会带来的能源挑战。首先我们来回答一个问题:为什么训练大模型会如此耗电。


01 为何生成式AI如此耗电?


‍‍‍1961年,为IBM效力的物理学家Rolf Landauer提出了Landauer's Principle(兰道尔原理)。



指出计算机中存储的信息发生不可逆的变化时,系统的熵会增加,且伴随着能量的耗散。简单来说,处理信息是有能量成本的。


1.1 AI训练与推理:处理信息能量成本


自从生成式AI确立使用Transformer架构并遵循“Scaling law”用巨量参数以来,AI大模型和“大量计算”就绑定在了一起。这就意味着,大模型运作中的“训练”(Training)和“推理”(Inference)都会涉及大量计算和信息处理,或者说,巨大的能量成本。


前者,在训练阶段,AI大模型需要收集和预处理大量的文本数据,然后初始化参数,处理数据,生成输出,调整,优化等等,而且随着模型的迭代,需要处理的参数是指数级别的增长:GPT3是1750亿个参数,GPT4是1.8万亿个,GPT5可能会突破10万亿参数,而传说正在训练的GPT6则可能数百万亿甚至千万亿参数的量级。



而硅谷顶级孵化器YC的前总监Kyle Corbitt在他的推特上爆料说,他在跟一个微软工程师聊天时,对方告诉他GPT-6的训练曾经让微软电网超负荷崩溃,所以无法在同一个州部署超过10万颗H100的GPU。



电网为什么会崩溃我们稍后会解释,但这里想跟大家说的是,可见训练GPT-6的耗电有多么可怕。而在训练完毕之后,“推理”同样需要非常大的算力和电力支持。


徐熠兴(Ethan)
微软能源战略部资深项目经理
我的理解是现在我们还处在就是AI训练大模型的一个阶段,这些模型训练出来之后,它之后的应用,它的推理应用等等,那才是最大消耗能源的地方,那用电量的话可能要比你训练那几个月AI模型的用电量要大的多的。


我们知道,Transformer是自回归模型,这意味着推理过程中涉及多轮重复计算;而在之后的生成阶段,每生成一个token,都需要与显存进行数据交互。


我们在开头说了,一张AI文生图的平均耗电量是能把手机充满电的电量。而聊天应用ChatGPT每天响应约2亿个需求,消耗超过50万度电力,相当于1.7万个美国家庭平均一天的用电量。


所以,无论是训练还是推理阶段,模型的参数量越大,需要处理的数据越多,所需的计算量就越大,消耗的能量也就越大,释放的热量也越多。而反过来,这又需要更强大的芯片,这样的追求是无止尽的。


John Yue
Inference.ai创始人兼首席执行官
我个人感觉他这对这芯片的要求应该是没有尽头的,就比如我training(训练)一个东西我6个月,那我竞品可能说OK,那我多买几个GPU吧?我三个月,那他三个月,我现在就要两个月,那我两个月,他就要一个月,那这个东西其实是没有尽头的,因为大家总想要更快。


更快,更大,更强。


这对AI芯片提出了更高的要求。为了支撑起如此巨大的计算量,科技巨头们纷纷建起了自己的数据中心Data Center(数据中心),将上万GPU互联互通,来支持AI大算力。


如果说AI训练和推理产生的能量是冰山一角的话,那么数据中心本身的耗电才是埋在海中的巨大冰山。


而再往深一步说,更大的能耗还来自于芯片上的电流,以及整个数据中心配套设施。


1.2 万卡Data Center:焦耳定律和冷却系统的吞电狂魔


我们都知道,AI算力靠的是GPU芯片的并行计算。在每个芯片中,如今有着以亿为单位的晶体管,比如说,英伟达最近发布的Blackwell架构GPU就拥有2080亿个晶体管。这些晶体管在运转时,就会产生电流。回顾一下物理学的焦耳定律,电流通过这些晶体管产生的热量跟电流的二次方成正比,跟导体的电阻成正比,跟通电的时间成正比(公式:Q=I²Rt)。



所以,万亿参数的AI大模型训练与推理,运行在上万GPU芯片上的千亿晶体管上,所产生的耗电和热量,可想而知。


除了芯片上本身的能耗之外,数据中心还涉及到冷却系统的大量能耗。在数据中心的能耗上,有一个评估的衡量指标叫“电力使用效率”(Power Usage Effectiveness),简称PUE,也就是消耗的所有能源除以IT设备能耗的比值。PUE这个指标越接近1,数据中心浪费的能源越少。



根据数据中心标准组织Uptime Institute的报告,2020年全球大型数据中心的平均PUE大约是在1.59。也就是说,数据中心的IT设备每消耗1度电,配套设备就会消耗0.59度电。其中,大部分的这些配套能耗是被用于冷却系统,在很多数据中心,冷却系统能耗可以达到总能耗的40%。


因此,最近几年,随着生成式AI赛道的起飞,科技大厂们迅速圈地大兴修建新AI数据中心。巨头们并不在乎电价,而“哪里有电”,成了它们在乎的问题。


John Yue
Inference.ai创始人兼首席执行官
就是因为我们原来设计Data Center(数据中心)的时候,大家其实没有考虑数据中心需要用到这么多电,它都是考虑到我的这个带宽什么的,它会建在离这种ISP(网络业务提供商)近一点的地方,这样保证它这个带宽有优势。但是现在就发现我们其实是这个需要离电近一点,不是需要离带宽近一点,就是如果你要建这个,就是这种accelerate compute(加速计算)的这种数据中心,像他这种32,000张GPU的话,那其实对带宽要求远远不如对电的这个要求啊。
陈茜: 所以建在电便宜的地方?
John Yue
Inference.ai创始人兼首席执行官
不是,现在已经不是考虑电便宜不便宜了?现在就没有电。嗯,现在是你要看Data Center这一层人,大家在干的事都是shopping for power(购电)。就是你哪块开一个很大的电站,立马就有人赶紧去把那块地先给建个Data Center(数据中心)。


Bank of America最近发布给机构客户的一份研报上认为,2023年到2028年期间,全球数据中心的能耗会以每年百分之25到33的复合增长率快速飙升。



徐熠兴(Ethan)
微软能源战略部资深项目经理
AI其实它对一个国家的经济也是非常重要的,就比如说一个很粗略的一个评估了,就是每一兆瓦的AI的这个数据中心的这个负荷,大概能够带来1000万美元左右的年收入,如果是一兆瓦时的话,它的成本可能只有30美元到50美元左右。所以这是非常高的一个经济效益。所以这也是为什么,所有的科技公司都不管这个电价有多高,只要有电,那我就愿意去建(数据中心)。


如此有利润潜力的高回报生意,巨头们如何不押注?国际能源署(IEA)发布的一份报告显示,2022年全球数据中心、人工智能和加密货币的耗电量达到460TWh,占全球能耗的近2%。IEA预测,在最糟糕的情况下,到2026年这些领域的用电量将达1000TWh,与整个日本的用电量相当。



目前出现的问题是,用电需求快速增长,但包括美国在内的许多地区的电网基建,却已经很多年没有翻新过,完全跟不上AI增长的节奏,所以,“电荒”,“断电”,”电网瘫痪“,这些关键词,将很可能会成为接下来频繁的新闻头条。接下来我们说说,AI耗电将如何造成全球的电荒。


02 电荒何起:陈旧的基建与飙升的新需求?


在我们开头提到的,YC前总监KyleCorbitt的推特中,他说微软工程师跟他爆料,因为曾经微软在一个州,部署超过10万颗H100的GPU,用来训练GPT-6,让微软电网超负荷而崩溃的。为什么会出现这个问题呢?


徐熠兴(Ethan):
微软能源战略部资深项目经理
电网它的设计,基本上会针对你的用电负荷来进行设计的,就是说以前的数据中心,它其实是一个稳定的用电量,它一天24小时每刻的用电量,基本上是一个比较平稳的状态。但是AI的训练也好、推理也好,它会呈现出很不一样的用电特征,在训练的时候,或者在应用的时候,会出现非常大的摆幅,比如说可能衡幅100%的用电量,一下子降到10%的用电量,或者下一秒钟又会再升到100%的用电量,它在几秒钟之内,甚至在一秒钟之内,就会出现比较大的这种用电的摆伏,这样的这个情况,会给电网再带来不愿意接受的使用震荡,会对电网的稳定性会造成一定的影响。


其实数据中心一直很耗电,但随着AI爆发,各大巨头都开展了部署AI的“军备竞赛”,因此在大规模新建数据中心,但数据中心的负荷太重,发电系统无法提供这么高的功率,就算添置发电设施,老旧的电力传输设施也难以承担如此负荷,很容易超出电网原本的承受上限,加上欧美地区的用电量在过去相当长时间都保持平稳,这意味着电网基建已经接近20年时间没有更新。


在过去20年里,虽然美国的经济不断提升,但由于“去工业化”的理念,整体的经济增长与用电量并不相关,每年的用电增长率只有0.5%,这和亚洲的一些发展中国家情况大不相同。美国的工程师在这20年里,都没有遇到过如此大的电力增长需求,从而导致整个电网规划时,对这种情况没有预案,同时由于建设能力较为薄弱,短期内无法跟上发展需求,所以在未来的三到五年内,可能美国很多地区都将出现用电紧张。


徐熠兴(Ethan)
微软能源战略部资深项目经理
对于政策的制定者来说也是同样巨大的挑战。因为在美国你要建设电网,需要建设电站,需要建设传输线,而这些可能都会涉及到千千万万的居民。因为美国的很多土地都是私有的,也就意味着如果你要建设电网,升级电网的话,你的传输线肯定要经过很多这个私营的这个土地主,那怎么能够说服他们要允许建设电网,允许建设传输线,这都将是一个非常大的挑战。


所以,《纽约客》最近的一篇文章中,更是将AI的能源需求用“Obscene”(下流)来形容,用词非常不客气。但巨头们并没有因为电网的挑战而停下脚步,反观微软和OpenAI甚至投入1000亿美元,计划打造一个有史以来最大的AI超级计算机项目:Stargate。



03 千亿美元、吉瓦量级的Stargate


我们将硅谷的几大巨头盘点下,Meta目前有65万张H100,今年计划花8亿美元,做一个AI数据中心,亚马逊则打算在数据中心上投资6.5亿美元,谷歌更是大手笔,投资10亿美元建数据中心,但这些在微软面前,不过是一点零头。


根据美国科技媒体The Information报道,OpenAI联手微软计划花费1000亿美元打造一台AI超级计算机,名为“星际之门”Stargate,这个投资规模比目前运营的其他数据中心,高出了100倍。要知道,OpenAI的投资也才130亿美元,这些钱足够打造8个OpenAI了。



星际之门这个项目预计在2028年完成,采购的芯片不再是H100,而是数百万个英伟达最新的B200芯片,最重要的是,这个项目的电力需求将会达到数吉瓦的量级。


目前虽然星际之门的项目还在较早的规划阶段且未获正式批准,可能还会有所变动,但这个计划的出台告诉了我们很明确的信号:谁掌握了算力,谁就掌握了未来。


而如此庞大的电力需求,将会对美国的电力系统造成不可估量的缺口,可能你想问:微软为什么不考虑到其他国家建设星际之门,以减轻美国的电力负担呢?


项江
瀚海聚能CEO
数据它现在是一个资产,而且是一个甚至到了战略资产这样一个地位。而且对于AI下一步的发展的话,首先这现在是芯片短缺,再是数据短缺,再是能源短缺,这个重要性已经都凸显在这儿了,数据实际上已经现在出现了短缺的问题了。你说把数据中心建在别的国家,然后再去训练,甚至利用当地国家的数据,我觉得这是不可想象的事情。


这么聊下来,美国的电荒危机将继续扩大。那么要保证像Stargate这种量级的项目,能耗的问题,到底该如何解决呢?


从The Information爆料出的Stargate内部讨论来看,更高效的数据中心优化,以及核能等替代能源,都是急需技术突破的方向。我们先来聊聊芯片和数据中心的优化。


04 数据中心优化:芯片效率及液冷技术


我们在前面讲到数据中心的电力使用效率PUE,如果PUE越接近1,能耗效率就越高对吧。 那么,如何优化数据中心的PUE呢? 诶,老黄给出了一些可行性答案。


在2024年的英伟达大会上,黄仁勋说,新一代Blackwell GB200的能耗是前一代Hopper架构的四分之一。英伟达的BlackwellGB200是如何实现能耗优化的呢?我们来通过英伟达的动画演示仔细解读一下。


这是Blackwell的GPU核心,在动画中,两个核心拼接在一起,组成了B100的核心。



这六个方块,就是核心旁边的HBM(High Bandwidth Memory高带宽内存)。旁边是8个内存卡,这就是一个GPU。这六个方块,就是核心旁边的HBM(High Bandwidth Memory高带宽内存)。旁边是8个内存卡,这就是一个GPU。



这是加了他们的Grace CPU,CPU是主要大脑,带动了两块GPU。这个就叫GB200(3:55)那个G就是它那个 Grace CPU。



两块GB200装入机柜后,就组成了一个NODE,计算节点。这里加入的卡是Infiniband,主要功能是让各计算单元之间高速通信。



除了Infiniband,NODE还加入了DPU(Data Processing Unit),用来处理数据,减轻CPU负担。



英伟达会将18个NODE组合。这是英伟达的NVLink Switch芯片,大家可以把这层理解为交换机,用于连通NODE。



并加上局域网加速卡,组成了整个机组。再通过不断增加机组,最后成为了数据中心。



解释完GTC上的这段动画,相信大家也理解了Blackwell和B200是什么。在GTC上,老黄介绍过Blackwell GPU拥有2080亿个晶体管,用于AI训练时,速度将比H100快1倍,而推理速度则快5倍。最重要的是,对于相同的AI训练量,GB200的功耗是之前的四分之一。



这么看来,从一定程度上,随着B200的问世,AI数据中心的耗电问题将有所缓解,毕竟英伟达占据了95%的AI市场。


在能耗上,还有一点很重要。让以上英伟达数据中心这一切能顺利运转的,是即将成为行业标配的“液体冷却技术”。Bank of America在研报上解释,接下来,随着数据中心功率密度的提高,传统的风冷系统方法可能不再适用,需要采用液体冷却解决方案,这会帮助提高数据中心的效能。



我们之前在英伟达GTC展会上采访了Supermicro的人,对方也说了同样的话:在英伟达Blackwell架构之后的AI数据中心都会转向液体冷却方案。



液冷技术其实已经发展了相当的时间了,目前分为直抵芯片液体冷却,和浸入式液体冷却这两种技术方向。中间的技术细节先不说了,总而言之,液冷不仅创造了降低数据中心能耗的机会,还能将电力使用效率(PUE)降至接近1的理想状态。


但注意,我这里说的是“理想状态”。那现实呢?


John Yue
Inference.ai创始人兼首席执行官
就是这个B100比以前的H100会tricky(刁钻)很多,因为这个liquid cooling(液体冷却)现在市场上是没有标准,很多这种数据中心或者这种担忧,他其实不敢私自去碰这个liquid cooling。因为英伟达它有要求,因为英伟达它交货的时候,它里头是不带liquid cooling的,所以你要装liquid cooling,你其实把它自带那套东西给拆了。那你装了以后如果出问题,英伟达不保修了。所以很多人他是不敢乱碰这个liquid cooling。


首先,最大的问题是产能,即使Blackwell出来了,但H100依然处于供不应求的情况,想把H100全换成B100,不说有没有这么多卡,在整个行业缺算力时,企业的选择只有增配,而非替换。


其次,就算想用B100换成H100,技术上也存在问题。数据中心设计时,整个配套设备如变压器、导线、散热,都要与芯片匹配,不论是B100、B200还是GB200,其配套方案都与上一代不同,所以现有的数据中心将难以直接更换。


John Yue
Inference.ai创始人兼首席执行官
现在还没有任何人在英伟达之外成功的部署了一个B100,所以要怎么部署大家还不确定。因为它确实跟H100不太一样。视频里放的那个,把那个扣打开,H100拿出来,B100插进去,那个是非常理想化的,其实你要改很多东西。B100可能还稍微好一些,像他说那个B200大家要都用上,我觉得时间就长了。
因为那个机柜可能要重新改,他耗电太大啊。你要重新建数据中心,要不然就是因为你那个cooling(冷却)的那个功率不够,你可能要把你的这数据中心重新摆排。或者你机柜离太近太热了,然后你的那个冷却达不到标的话,你想要把这些机柜全都离远一点,这个非常费事。


最后,由于竞争存在,资本对算力的需求,将是永无止境的。也就是说,芯片和数据中心在能耗效率上的提高比起市场上的整体需求上涨,依然无法改善算力短缺,总能耗依然在快速飙升。



在PC快速发展的时代,出现过安迪-比尔定理,不论英特尔如何提升芯片性能,这部分很快会被微软的软件需求给吃掉。到了如今的AI时代,类似的定律可能会再次上演。


徐熠兴(Ethan):
我觉得在GPU上有可能也会出现类似的情况,就是它的能耗降低了很多,很快,但是因为能耗的降低,可能会导致更多的人,在更多的应用,会需要更多的GPU,最后还是会导致能耗的总体能耗的增加。


那么,有没有更强大的帮我们解决能耗问题的解决方案呢?


05 能源终极方案:核聚变?


迁往它国不行,降低能耗不够,AI发展也不能停,在如此大的电力缺口面前,巨头们该何去何从呢?


徐熠兴(Ethan)提到了一个思路,在短期内,分布式储能会是比较重要的方案。例如发展光伏充电,让每家每户都装上太阳能板,以此来减轻家庭用电对电网的依赖,将更多电能用于AI产业。毕竟我们前面也提到过,AI对国家经济非常重要,所以政府是有动力去推进这项计划的。


同时,由于发电厂是持续发电,但总有一些时间电网负荷量低,这时没用上的电,也就白白流失了,因此建设储能设备也能让发电厂的电,得到充分利用。目前主流的储能设备是电池,有些地方则会用到抽水蓄电,也就是在用电低谷时,将水抽到地势高的地方,等高峰时再释放,通过水的流势来发电。


然而,分布式储能和新能源供电只能短时间内提供电力上的帮助,目前看来并不能作为长期AI发展中的可靠能源支持,无法解决长期需求。


徐熠兴(Ethan)
微软能源战略部资深项目经理
之所以会出现这样的情况,最主要的一个原因就是,我们现在依靠的很多清洁能源,比如说风能和太阳能,他们都不是完全可控的,有风、有太阳的时候你有能源,没有风和太阳的时候你就没有这些能源了。


为此,像微软这样的巨头,正积极地和美国各电力公司合作,甚至Sam Altman直接投资了一家名为HelionEnergy的能源公司。


Lex Fridman:你如何解决能源问题?核聚变?
Sam Altman:那是我认可的
Lex Fridman:谁来解决这个问题?
Sam Altman:我认为Helion做得最好


没错,核能,这是巨头们所坚信的方向。 核聚变是将氘、氚通过一定手段,使其成为等离子态,发生核聚变后产生能量,一旦外力停止,等离子态会消 失,反应结束,相对而言更可控、更安全。


Helion走的就是核聚变的道路,他们还和微软签订了对赌协议,承诺在2028年之前开始通过核聚变发电,并在一年之后以0.01美元每千瓦时的价格为微软提供目标为至少50兆瓦的发电量,否则将支付罚款。这个激进的“对赌协议”被认为是核聚变发电领域的首个商业协议。



项江
瀚海聚能CEO
它的底气就是在于它现在采用的技术路线,建设的装置的成本非常低。如果用托卡马克一个装置要上百亿、四五百亿来建造的话,那么它的技术迭代周期就会达到10年以上。


项江
瀚海聚能CEO
它采用的是,直线型场反位形的这样一个技术路线,这样大幅降低了它的资金门槛。


那目前核聚变又发展到什么水平了呢?


项江
瀚海聚能CEO
其实说现在的技术发展水平来讲的话,现在核聚变是完全可以用于发电的,只不过我们目前还在处于做实验的阶段,我们现在用的是氘-氘进行反应做实验,要用到核电站的这样的发电效率的话,至少用氘-氚聚变来发电,而且它现在叫有价无市,每克氚大概是在两三百万这样人民币的这样一个价格。


想用核聚变来发电,还得解决热传导、涡轮电机、供电并网等设施,这其中的投资又是几十亿,所以,业内很多声音其实对Helion公司在2029年开始给微软用核聚变供电保持非常怀疑的态度。但其实,微软自己也对核聚变技术的到来也并不盲目乐观。


徐熠兴(Ethan)
微软能源战略部资深项目经理
其实微软投资这个公司或者签这个合同的主要目的,是在于能够前期就给他们需求侧的一个强烈的信号,通过这样的方式去支持这样的创新公司,去帮助他们,去减少他们面对的风险。
微软和几个大公司,包括亚马逊,包括谷歌等等,其实都一直在用自己的投资部门,去投资不同的新科技,这其中就有核能,包括核聚变。他们的希望也是通过投资这些技术,让这些技术公司能够发展的更好,能够用更快的速度、更低的成本实现规模化,能够把这个核聚变尽可能实现。


虽然核聚变何时能到来还是一个巨大的未知数,但显然,核能将是接下来巨头们瞄准的市场。近来,亚马逊购买了一个拥有核能供应的宾夕法尼亚州数据中心地点。根据两位参与谈判的人士透露,微软也曾讨论竞标同样的地点。所以,接下来,有核能供应的数据中心选址,可能将是下一个科技巨头们的兵家必争之地。

文章的最后,我们再来聊聊一个更现实的问题:目前硅谷科技巨头们开启了抢电大战,但他们承诺的碳中和目标怎么办?



06 更贵、更难的碳中和目标


还有个很重要的问题,就是环保,众所周知,现在全球推进碳中和目标,但随着AI巨大的耗电需求,碳中和的实现难度和成本将可能翻倍。


当前生成式AI的军备竞赛无疑是打乱了一众科技巨头的碳排放计划,因为满足AI Scaling law(规模法则)的发展实在太耗能源了,可以说是非常高碳的经济活动。


徐熠兴(Ethan)
微软能源战略部资深项目经理
在更早的时候就已经开始开启了能源转型的道路,所以像很多的大的公司,包括微软、谷歌、亚马逊、Meta等等,他们在AI出现之前就已经向公众作出了这个承诺,当时是没有考虑到AI的。


微软承诺2030年实现100%没有任何碳排放的清洁能源使用、实现碳中和,亚马逊承诺2040年之前实现碳中和,谷歌和Meta承诺2030年之前实现整个运营和价值链上的碳中和,但因为这轮AI的出现,这些承诺似乎更难以达到了。


徐熠兴(Ethan)
微软能源战略部资深项目经理
此前这些公司在做这些承诺的时候,他们的目标就已经设得足够高、足够难了,在没有AI之前,要实现能源转型的成本就很高,如果加上AI之后,成本有可能会翻倍。当能源转型进行到最后的那5%、10%的时候,想再实现95%甚至99%的清洁能源的时候,这个成本就几乎是指数性的增长。


除了电能之外,水能源其实也遭遇着类似的挑战。近年来,在AI大模型领域领先的科技公司们,也都面临水消耗大幅增长的局面,数据显示,人工智能聊天机器人ChatGPT每发出10到50次对话提示,就会“吞下”500毫升水。


2023年6月,微软公司发布了2022年度环境可持续发展报告,其中用水一项,有超过34%的显著增长。



谷歌公司也类似,甚至引发了2023年年中,在乌拉圭首都的民众抗议,这个南美国家遭受74年来最严重的干旱之际,试图阻止谷歌在当地建设数据中心的计划。


而我们在文章中提到的液态冷却技术,和系统的进一步普及和运用,也将继续对水资源有着持续的需求。


在技术发展和能源消耗之间的选择,非常两难。一面需要稳定、大量的电力来打AI技术和商业之战,一面需要向社会履行环保承诺来打碳中和之战,无论是哪一场战役,都是昂贵且困难的。业内流行着一句话:AGI的尽头是能源。如果人类到达AGI之前可控核聚变技术无法实现,那么现有的能源方案能带我们走多远?这是一个巨大的不确定性。


同时,在科技公司们计算AI成本时,我们也不要忘了社会成本。政府间气候变化专门委员会(IPCC)的报告指出,如果我们不能在本世纪内有效控制全球温升,气候变化越过临界点将会导致极端天气事件更加频繁。Climate Policy Initiative的研究报告预计,气候风险带来的累计损失到2100年可能高达数百万亿美元。



如果AI的发展将推高碳排放、推后碳中和且导致更多气候损失,那么这也要算入AI成本中。届时,人类对AI技术发展的这笔经济帐,还能否算得过来呢?


本文来自微信公众号“硅谷101”(ID:TheValley101),作者:陈茜inTheValley



关键词: AI , AI算力 , GPU , AI服务器