ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
100%英伟达的错:黄仁勋确认Blackwell缺陷修复,明年初出货
2993点击    2024-10-24 15:34

老黄:科技公司的芯片需求让我夜不能寐。


「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下,」黄仁勋表示。「这 100% 是英伟达的错。」


自 3 月份发布以来,全球科技公司都在疯狂求购的 Blackwell AI 芯片,似乎终于要到了出货的时候。


本周三,在与高盛(Goldman Sachs)进行的会议中,英伟达表示 Blackwell GPU 中影响良率的设计缺陷已宣告修复,B100/B200 处理器的改进版即将投入量产。


据路透社等外媒报道,英伟达 CEO 黄仁勋本周承认,该缺陷完全由英伟达造成,并表示该现在已在台积电的及时帮助下修复了缺陷



今年 8 月,当有关英伟达最新一代芯片 Blackwell 设计缺陷的第一批报道出现时,一些媒体称台积电应承担责任 —— 并暗示这可能导致英伟达与其代工合作伙伴之间的关系紧张。


黄仁勋表示,事实并非如此。他还驳斥了有关两家公司关系紧张的报道,并称其为「假新闻」。为了让 Blackwell 计算设备正常工作,英伟达设计了七种不同类型的芯片,并同时投入生产


英伟达的 Blackwell 芯片采用全新一代架构,台积电 4NP 工艺打造,拥有 2080 亿个晶体管,在执行大模型推理等任务时效率较前代提升了 30 倍,因而备受科技公司期待。


此种面积的芯片,显然不能再通过传统方式来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层(以实现约 10 TB/s 的数据传输速率)。


英伟达表示,双芯片的 GPU 没有内存局部性问题或缓存问题,CUDA 将其视为单块 GPU,可见这些芯片的桥接器至关重要。然而,GPU 芯片、LSI 桥接器、RDL 中介层和主板基板之间的热膨胀特性可能不匹配,导致系统弯曲和故障。


图源:Nvidia


因此,英伟达在 8 月承认了其 Blackwell GPU 的良品率低,需要修改 GPU 硅片的顶部金属层和凸片,以提高生产良率。当时,英伟达在一份声明中表示,「公司已经对 Blackwell GPU 的掩膜实施了修复。」


不过,英伟达也重申,公司在第二季度与客户一起对 Blackwell GPU 进行了抽样检查,并承认必须生产「低良率 Blackwell 材料」才能满足对 Blackwell 处理器的需求。


同时,黄仁勋在 2025 财年第二季度财报电话会议上表示,公司针对 Blackwell B100 和 B200 GPU 的设计进行了所有必要的变更,从而有望在第四季度实现量产。


英伟达 Blackwell GPU 不同型号的参数规格。


其实在半导体行业中,影响良率的 bug 以及重大功能问题并不是什么新鲜事。通常,公司通过修改金属层(或两层)等新步进(stepping)来修复这些问题。


据此前报道,英特尔的 Sapphire Rapids 有 500 个 bug。因此,英特尔发布了大约十几个步进来修复所有 bug(其中五个是基础重置)。每个新步进大约需要三个月才能完成(包括识别问题、修复问题和生产新版本芯片)。


图源:Intel


从这一点来看,英伟达和台积电修复 Blackwell GPU 的速度的确令人印象深刻。


目前,已修复的用于 AI 和超级计算机的 Blackwell GPU 预计将于最近几天投入量产,并在 2025 年初开始发货(仍在英伟达 2025 财年内)


此外,根据英伟达在今年初披露的消息,AWS、谷歌、Meta 和微软是其主要客户(合计收入占比高达 40%),为满足他们对其新一代 AI 算力的需求,该公司必须在本年度出货一些最初低良率的 Blackwell GPU。不过,2024 年究竟会有多少 Blackwell GPU 被「送」往数据中心,我们不得而知。


周三美股收盘,刚刚创下历史新高的英伟达股票收跌 2.81 %,回落到 140 美元以下。



参考内容:

https://www.tomshardware.com/pc-components/gpus/nvidia-adresses-significant-blackwell-yield-issues-production-ramp-in-q4

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-jensen-huang-admits-ai-chip-design-flaw-was-100-percent-nvidias-fault-tsmc-not-to-blame-now-fixed-blackwell-chips-are-in-production


文章来自于微信公众号“机器之心”