ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Nature:探秘世界最快超算的一天
5959点击    2024-09-15 14:01

超算建设如火如荼,无论是主权AI还是科技巨头,都在源源不断地给英伟达输血、建数据中心。


前段时间,马斯克建成的有10万张H100的Colossus集群,号称是世界上最强大的AI训练系统。


而在这之前,截止到2023年12月,世界上运算速度最快的超算,是位于美国田纳西州橡树岭的Frontier,也被称为OLCF-5。


Frontier配备的是AMD的CPU和GPU,有5万个处理器(其中包含3.8万个GPU),运算速度为1.102 exaFLOPS,即每秒1.102百亿亿(1018)次浮点运算。


这个速度甚至比10万台笔记本同时工作还要更快,而且在2022年首次亮相时,Frontier还破了一个纪录——第一次突破了百亿亿次运算速度的门槛。



Frontier超算的覆盖面积比两个篮球场还要大


之所以要追求如此卓越的速度和规模,是为了满足各领域前沿科学研究中模拟计算的需要。


Frontier十分擅长创建模拟,并能同时捕捉到大尺度的模式和小尺度的细节,比如微小的云滴如何影响气候变暖的速度。


如今,研究人员们从世界各地登录Frontier,创建从亚原子粒子到星系的一切尖端模型,包括模拟蛋白质进行药物发现和涉及、模拟湍流以改进飞机发动机,以及训练能和谷歌、OpenAI竞争的开源LLM。


但是,就在今年四月的一天,Frontier的运作出现了一点意外。


Frontier所在的田纳西州橡树岭国家实验室科学主任Bronson Messer表示,为了为了跟上世界各地科学家们的要求,Frontier的功耗急剧上升,峰值达到了约27兆瓦,足以为大约1万个家庭供电。



这也为超算的冷却系统带来了挑战,用Messer的话说,「机器像一条被烫伤的狗一样在运行」。


根据2023年的统计,Frontier共有1744个用户,遍布18个国家,贡献的计算和数据支撑了至少500篇已经公开发表的论文。


探秘Frontier「大脑」内部


和我们想象的场景类似,Frontier所在的机房类似于一个仓库,运转时发出的电子嗡嗡声稳定而轻柔。


机房中共有74个机架,每个节点分别包含4个GPU和1个CPU。之所以有如此快的运算速度,就是得益于庞大的GPU数量。


实验室主任Messer形容道,「这些GPU运行得非常快,但也愚蠢至极,它们可以一遍又一遍地做同一件事。」


这种同时处理多项运算的功能对超算的快速工作非常有用,但除此之外,也没什么其他任务了。


这种「愚蠢至极」的背后,是一种通用性,各领域的科学家都可以通过定制代码来运行GPU。


Frontier的运转日夜不停,同样连轴转的还有负责运营、维护的工程团队。


负责建造这台超算的工程师团队来自惠普公司,其中一位技术人员Corey Edmonds表示,他们有一个工程团队会对Frontier进行持续监控,判断是否存在故障迹象。


比如其中一位夜班人员Conner Cunningham的工作时间就是晚7点到早7点,负责用十多个监视器关注网络和建筑物的安全,并监控当地天气,确保Frontier正常运转。


实际上,大多数夜晚都是「平安夜」,Cunningham一般只需要巡查几次,其余时间都可以在工位上学习。


「这项工作有点像消防员,如果发生任何事,需要有人在岗监控。」


助力大科学


虽然Frontier日夜不停地运转,但研究人员想要申请到使用机会,也并不是一件容易的事。


科学主任Messer和其他3位同事负责使用提案的评估和批准,他们去年共批准了131个项目,通过率约为1/4,


申请人需要表明其项目需要利用整个超算系统才能获批,一般用于对各种时间和空间尺度进行建模。


Frontier每年共有约6500万个节点时(node-hour)可用,研究人员得到的最常见的分配额度为50万个节点时,相当于全系统连续运行三天。


Messer表示,相比其他数据中心,研究人员在Frontier上获得的计算资源大约多出十倍。



Frontier拥有超过5万个处理器,并采用液冷


有了更快的运算速度、更多的计算资源,研究人员们就能做出更加雄心勃勃的「大科学」。


比如,在原子级精度精确地模拟生物过程,像是溶液中的蛋白质或核酸如何与细胞其他部分发生相互作用。


今年5月,有学者用Frontier模拟了含有超过1550亿个水分子的立方体形状的水滴,大小约为人类头发宽度的十分之一,是有史以来规模最大的原子级模拟之一。


短期内,研究人员希望模拟细胞器来为实验室提供信息;此外他们还希望将这些高分辨率的模拟结果,与X射线自由电子激光器的超快成像相结合,以加速发现。


这些工作都是为今后更大的目标做铺垫——从原子开始对整个细胞进行建模。


有了Frontier,气候模型也变得更加精确。



去年,气候科学家Matt Norman和其他研究人员使用Frontier运行了分辨率为3.25公里的全球气候模型,其中还结合了分辨率更加精细的复杂的云层运动。


为了创建长达数十年的预测模型,Frontier的计算能力是十分必要的,而且需要用上整个系统的算力才能做到。


对于一个适用于天气和气候预测的模型,至少需要每天进行一年的模拟运行。


Frontier每天可以模拟1.26年,这个速度可以使研究人员能够创建比以前更准确的50年预测。


如果换到其他计算机上运行,要达到相同的分辨率,同时考虑云的影响,计算速度则会慢得多。


在更大的宇宙级尺度上,Frontier也能带来更高的分辨率。


匹兹堡大学的天体物理学家Evan Schneider也在使用Frontier,研究银河系大小的星系如何随着年龄的增长而演化。


他们创建的星系模型跨越四个数量级,最大规模可达约10万光年。而在Frontier之前,以类似的分辨率模拟的最大结构是矮星系,质量约为五十分之一。


Frontier对AI意味着什么


作为曾经的世界第一,Frontier的地位显得更加独特,因为这台超算是为数不多的属于公共部门的设备,而非由工业界主导。


由于AI领域的研究往往需要吞噬庞大的算力,学术界和工业界的成果存在巨大的鸿沟。


有学者统计过, 2021 年,96%的最大的AI模型来自工业界。平均而言,工业界模型的规模是学术模型的近30倍。


这种差异在投资金额方面也很明显。美国的非国防公共机构在2021年提供了15亿美元支持AI研究。同年,全球工业界支出超过3400亿美元。


而自从GPT-4、Gemini Ultra等商业LLM发布以来,两者之前的差距又被进一步扩大,这种投资鸿沟导致工业界和学术界可用的计算资源明显不对称。


由于工业界的模型开发以盈利为目的,往往会忽视很多技术发展中必须要面对的重要问题,比如基础研究、低收入群体的需求、评估模型风险、纠正模型偏见等等。


如果学术界要承担起这些责任,就需要能和行业规模匹配的算力,这就是Frontier的用武之地。


一个最典型的例子,科技公司训练出的LLM往往保留不同程度的专有性,但研究者们往往会奖自己开发的模型免费提供给任何人使用。


马里兰大学帕克分校的计算机科学家Abhinav Bhatele表示,这将有助于大学研究人员与公司竞争,「学术界人士训练类似规模模型的唯一方法是获得像Frontier这样的资源。」


Bhatele认为,Frontier等设施在AI领域就是发挥着这种至关重要的作用,让更多的人参与到技术开发中,共享成果。


但值得注意的是,这场国家之间、科技公司和非营利机构间的算力基础设施竞赛,依旧在持续,能力强大如Frontier也终会有跌落的一天。


橡树岭实验室已经在规划Frontier的继任者,名为Discovery,计算速度将提升3~5倍。


作为参考,Frontier相比2014年的最快的超算天河二号A快了35倍,比2004年最快的超算Earth Simulator快3.3万倍。



研究人员仍然渴望更快的速度,但工程师们面临着持续的挑战,其中一方面就是能源。


Frontier的能源效率相比Summit就提升了4倍多,很大程度上是源于不同的冷却方案。


Frontier使用室温水进行冷却,与Summit使用冷水不同。Frontier总能耗的大约3%~4%用于冷却,而Summit 的这一比例为10%。


与 Summit 使用冷冻水不同。Frontier 总能耗的大约 3-4% 用于冷却,而 Summit 的这一比例为 10%。


多年来,能源效率一直是构建更先进超算的关键瓶颈,而在可预见的将来,这个瓶颈估计会持续存在。


实验室主任Messer表示, 「我们本可以在2012年建造一台百亿亿次级别的超算,但提供动力的成本太高了,需要多一两个数量级的电力。」


文章来源于“新智元”,作者“新智元