ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
马斯克19天建成世界最强AI集群!10万块H100「液冷怪兽」即将觉醒
3488点击    2024-07-23 16:03

凌晨4:20,大洋彼岸的最大超算训练集群开始轰鸣。


「420」也是马斯克最喜欢玩的梗,象征着自由、不受约束和反传统。


马斯克频繁把「420」用在他的产品定价,公司开会时间和星舰一发射时间上等等。


网友也在评论区打趣马斯克超绝仪式感,不到4:20不开工。



在最新采访中,马斯克透露了更多关于新建超算和xAI模型进展:


- Grok 2上个月完成了训练,大约用了15K H100


- Grok 2将于下个月发布,与GPT-4相当- Grok 3正在新建10万块液冷H100超算上,开始训练- 预计Grok 3将在12月发布,「届时将成为世界上最强大的人工智能」




10万块液冷H100,19天完成搭建


值得注意的是,这个全球最大的超算集群,大就大在拥有10万块H100,还是液冷的那种。



10万块H100是什么概念呢?


价格上来看,H100 GPU作为AI的关键组件、硅谷的热门商品,据估计每块成本在3万到4万美元之间,10万块H100就是一笔40亿的大单。


而在全美TOP 5的高校机器学习博士曾发帖说,实验室H100数量为0,要用GPU得靠抢。


李飞飞也在采访里表示,斯坦福的自然语言处理小组只有64块A100 GPU。


而马斯克一出手就是10万块,这个数字令评论区垂涎欲滴。



算力上来看,算力大约是OpenAI用于训练GPT4的25000块A100的20倍左右。


耗电上来看,仅仅是让这个超级计算中心维持运转,所需要的电力总功率就达到70MW,相当于这是一座普通电厂的装机容量,可满足20万人的能源需求。


今年5月,马斯克就曾表示,希望在2025年秋季前建成「超算工厂」。


现在看来,为了加速超级集群的建设,他选择了购买当前一代的H100 GPU,而不是等待新一代的H200或其他即将推出的基于Blackwell的B100和B200 GPU。


尽管市场预期Nvidia的新Blackwell数据中心GPU将在2024年底前上市,马斯克显然没有耐心等待。


当前AI军备竞赛越发火热,唯快不破,谁能最快地推出产品就能迅速占领市场。


xAI作为一家初创公司,更是要是与其他巨头之战中先声夺人。


在之前,马斯克与甲骨文的百亿大单就谈崩了,马斯克嫌弃甲骨文速度太慢,认为对方没有以可行的速度构建计算集群。



而甲骨文则觉得xAI建超算选址承担不了电力的需求,随着百亿订单的谈判破裂, xAI和甲骨文停止了讨论扩大现有合作的可能性。


xAI只得田纳西州孟菲斯市建设自己的人工智能数据中心,与甲骨文的合作破裂意味着xAI要自己动手单干,通过10万块H100构建独立的数据中心,以摆脱甲骨文等云提供商能力的限制。


马斯克自己也表示,xAI拥有世界最强的AI训练集群,可谓遥遥领先。



世界最强Grok-3开训,年底发


在马斯克最新一则采访中,披露了建立超算的一些细节。


据大孟菲斯商会(Greater Memphis Chamber)主席Ted Townsend透露,马斯克只花了大约一周的时间就决定将xAI的新超级计算机建造在孟菲斯。


Townsend说,经过3月份的几天旋风式谈判之后,马斯克和他的团队选择了田纳西州的这座城市,因为这里有充足的电力和快速建设的能力。


并且,仅仅花费了19天超算中心就建造完成,马斯克也在推文中赞扬了团队优秀的工作。



Supermicro公司也为xAI提供了大部分硬件支持,其CEO Charles Liang也在马斯克的推文下发表了评论,赞扬了团队的执行能力。



如此之大的训练集群,目的就是为了训练Grok 3。


本月初,马斯克就宣布8月底推出Grok 2,在Grok-2尚未发布的情况下,马斯克也透露了Grok-3的部分细节,为最强模型Grok 3造势。


马斯克在今年4月接受挪威主权基金负责人Nicolai Tangen采访时说,Grok 2需要大约2万张H100来进行训练。


Grok 3将于年底发布,可以预见,基于10万个GPU训练的Grok 3性能方面将比Grok 2更上一层楼。


如此巨大的超算中心,自然需要大量人才和技术的支持,马斯克也继续在推特上招兵买马,让数据优势、人才优势和算力优势全部扩张到极致。



参考资料:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993


文章来自于微信公众号“新智元”,作者 “新智元”


关键词: 马斯克 , AI , AI集群 , H100 , 算力