百万卡AI集群,离不开英伟达网络
百万卡AI集群,离不开英伟达网络马斯克xAI建超算集群,以太网助AI云迅猛发展。
马斯克xAI建超算集群,以太网助AI云迅猛发展。
有个怪事儿,前段时间,大模型竞技场上,一位代码为sus-column-r的匿名模型横空出世
大模型进入推理阶段,性价比压过算力。
一半以上的故障都归因于 GPU 及其高带宽内存。
大模型训练推理神作,又更新了!
「无问芯穹」Infini-AI云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台。
全美TOP 5的机器学习博士痛心发帖自曝,自己实验室里H100数目是0!这也引起了ML社区的全球网友大讨论。显然,相比普林斯顿、哈佛这样动辄三四百块H100的GPU大户,更常见的是GPU短缺的「穷人」。同一个实验室的博士,甚至时常会出现需要争抢GPU的情况。
在英伟达市值猛涨、各家科技巨头囤芯片的热潮中,我们往往会忽视GPU芯片是如何转变为数据中心算力的。最近,一篇SemiAnalysis的技术文章就深入解读了10万卡H100集群的构建过程。
用KV缓存加速大模型的显存瓶颈,终于迎来突破。 北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2.5%的KV cache,就能保持大模型90%的性能。 这下再也不用担心KV占用的显存容量过高,导致显卡不够用了。
英伟达给AI PC打造基座。