# 热门搜索 #
搜索
英伟达阉割版B200A曝光!最强芯片架构Blackwell难产:产能不够,刀法来凑
8076点击    2024-08-05 14:28

英伟达最强芯片B200被迫推迟三个月,传闻闹的沸沸扬扬。


老黄的对策来了:阉割版芯片B200A曝光。


这难道就是“产能不够,刀法来凑”



没错,根据SemiAnalysis分析,B200遇到的主要问题正是产能不足,更具体来说是台积电的新封装工艺CoWoS-L产能不足


阉割版的B200A将先用于满足中低端AI系统的需求。


阉割版B200A,内存带宽缩水


为什么说B200A是阉割版?


指标上主要体现在内存带宽,4TB/s,比年初发布会上B200宣传的8TB/s直接缩水一半



这背后就是封装工艺由CoWoS-L退回CoWoS-S了,甚至B200A据称也兼容三星等其他非台积电的2.5D封装技术。


总的来说CoWoS先进封装目前有三个变体,CoWoS-S、CoWoS-R和CoWoS-L,主要区别在中介层(interposer)的方案。


中介层介于芯片晶圆和印刷电路板之间,实现芯片与封装基板之间的信息交换,同时提供机械支撑和散热能力。


CoWoS-S结构最简单,中介层就相当于一片硅板。



CoWoS-R使用了RDL技术(Redistribution layer,再分布层),中介层是多层结构的薄金属材料。



CoWoS-L最复杂,在RDL中介层中加入了一种LSI芯片(Local Silicon Interconnect,局部硅互联),可以实现更高布线密度,也可以做成更大尺寸。



台积电推出CoWoS-L,是出于旧版技术在尺寸和性能继续增长上面临困难。


比如在AMD的AI加速芯片MI300上,CoWoS-S中介层已经扩大到了原标准的3.5倍,但仍难以满足未来AI芯片性能增长需求。


但现在,有消息称CoWoS-L在产能攀升中遇到一些问题,可能出现硅、中介层和基片之间的热膨胀系数不匹配,从而导致弯曲,需要重新设计。


过去台积电建立了大量的CoWoS-S产能,英伟达占据了最大份额。现在英伟达的需求可以迅速转向CoWoS-L,但台积电需要时间才能把产能转换到新工艺。


另外有消息称,B200A的核心(内部型号B102)将来也会用来造特别版B20,具体不展开了,懂得都懂。


B200训大模型,还面临其他挑战


Blackwell主推的规格是“新一代计算单元”GB200 NVL72,一个机柜就有36块CPU+72块GPU。


算力很到位,一个机柜在FP8精度的训练算力就高达720PFlops,直逼H100时代一个DGX SuperPod超级计算机集群(1000 PFlops)


但耗电也很到位,据Semianalysis估算,功率密度约为每个机柜125kW,前所未有。在供电、散热、网络设计、并行、可靠性等方面带来挑战。


事实上,已经用于大模型训练的H100万卡集群,业界也还没有完全驯服好。


比如Llama 3.1系列的技术报告就指出,训练期间平均3小时故障一次,其中GPU导致的问题占了58.7%。


总计419次故障中,148 次是由各种GPU故障(包括NVLink故障)引起,72次可以具体到是由HBM3内存故障引起。



所以总的来看,就算老黄最终发货了B200,AI巨头真正建好B200集群投入大模型训练,也还需要更多时间。


目前已经开始训练或接近完成的GPT-5、Claude 3.5 Opus、Llama 4等怕是用不上了,要到下下代模型才能见证Blackwell的威力。


One More Thing


针对B200推迟的传闻,英伟达给出了官方回应:


Hopper的需求强劲,Blackwell的样品试用已广泛开始,产量有望下半年增加

具体会不会延迟三个月,不做具体答复。


不过摩根士丹利在最新报告中比较乐观,认为生产仅会暂停约两周。


文章来源于“量子位”,作者“关注前沿科技




关键词: B200A , AI , AI芯片 , GPU , 算力 , 英伟达