AI大模型带来的芯片投资机会

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI大模型带来的芯片投资机会
6747点击    2024-12-30 14:26

服务器由传统服务器向AI服务器的转变过程中,最主要的变化是AI芯片的价值占比大幅提升。


行业研究是投资的源动力。元禾控股推出“元动力”系列行研分享,编辑部据此推出《元动力》行业研究专栏,旨在交流行业研究成果,分析行业发展趋势,探讨未来投资方向。


本期《元动力》行业研究专栏聚焦大模型带来的芯片端投资机会,分享者是元禾控股集成电路产业投资部投资经理周文杰,将从AI服务器的发展现状及挑战、芯片端的投资机会、行业发展趋势维度进行展开。


AI服务器行业现状


行业演进历史:云端化、AI化


服务器是完成AI大模型训练、推理的最基础的硬件设施。2012年以前是传统服务器,IT部署以本地构建数据中心为主,只有政府、金融机构和大型企业能够负担。2012年之后,云端服务器开始出现,且随着云技术成熟,下游云服务商深度定制化的云服务器成为市场增长动力。2016年,AI极大的特定算力需求打开了AI服务器蓝海市场。2020年至今,AI服务器又有了进一步分化,“云+边缘”的部署架构已成为市场共识,形成了边缘服务器、云端服务器等细分领域。总体来说,服务器行业的发展趋势是由本地到云端,由小型化到大型化。


AI大模型带来的芯片投资机会

服务器演进历史,来源:元禾控股


市场规模及主要客户


服务器的整体增长速率不快,但为什么这两年大家对于这个赛道关注的比较多?核心是因为AI带来的AI服务器的增量需求。 


AI大模型带来的芯片投资机会

服务器市场规模,来源:Statistics


据Statistics数据显示,全球服务器市场规模由2019年的782亿美元增长至2022年的855亿美元,复合年均增长率为2.87%,整体市场规模相对稳定。中国的服务器市场,整体规模约占全球市场份额的1/3,市场规模由2019年的181亿美元增长至2022年的273亿美元,复合年均增长率为14.6%。 从市场占有率来看,国内服务器头部厂商包括浪潮信息、新华三、超聚变、宁畅、中兴等。 


将AI服务器拆出来看,其增长速率较快。据IDC预计,全球AI服务器市场将从2022年的195亿美元增长到2026年的347亿美元,年复合增长率达15.4%。


AI大模型带来的芯片投资机会

AI服务器市场规模,来源:IDC


全球AI服务器市场中,浪潮信息、DELL、HPE占据市场前三。在中国AI服务器市场中,浪潮市场份额领先,新华三、宁畅分别位居第二和第三。为何头部“玩家”就这些?主要因为服务器厂商主要负责系统集成,并没有过多对硬件、软件做定义,而是配合下游客户进行开发。因此也可以理解,为何AI服务器市场规模在增加,但大家的关注重点不是服务器厂商,而是服务器里面的软硬件系统。


AI服务器的客户以互联网厂商为主。2022年AI服务器采购量中,北美四大云端供应商Microsoft、Google、Meta、AWS合计占比约66%。国内行情可能稍有不同,2022年中国AI服务器市场按销售额统计,互联网厂商占据47.5%,运营商占比19.6%,其次通信、政府分别占据8.6%、6.3%。


AI大模型带来的芯片投资机会

全球AI服务器采购量占比及我国AI服务器下游应用,来源:华经产业研究院


AI服务器构成及挑战


2022年,英伟达基于H100 AI芯片推出了DGX H100服务器,该服务器FP8算力达4PetaFLOPS,TF32算力为1PetaFLOPS。根据官网信息,英伟达DGX H100对比上一代产品具有6倍的性能,及2倍的网络速度和高速可扩展性。


AI大模型带来的芯片投资机会

DGX H100拓扑图,来源:元禾控股


AI大模型带来的芯片投资机会

服务器成本构成,来源:元禾控股


一台DGX H100服务器价格为46万美元,其中10万美元是所需服务的支持。DGX H100服务器中,GPU+NVSwitch达到了服务器总成本的72.63%,而CPU仅占总成本的1.94%,相应的内存DRAM成本占比也大幅降低。 


AI服务器相比于传统服务器,往往需要千卡集群计算,并且要做芯片互联,就会带来一系列问题。 当前的AI领域,以Transformer等复杂模型为代表,对服务器的计算能力、网络带宽以及能效都提出了新的挑战。这些挑战主要表现为:


挑战一:高速的并行处理能力。CPU已经无法满足高速并行计算的要求,AI服务器计算单元主要包括GPU、FPGA、 ASIC以及更近期的专用深度学习加速器。


挑战二:大容量高速的缓存。存储访问速度可能无法跟上计算单元对数据的高速消耗,从而形成了所谓的“存储墙”问题,使系统性能受到限制。


挑战三:高带宽低延迟的互联网络。在一个给定的处理场景中,所需的数据可能散布在多种介质中,这种分散性强调了计算单元,特别是为大型模型设计,需要与各种系统之间维持高带宽和低延迟的连接。


挑战四:更加高效的散热和低功耗设计。专用计算单元在极大提高计算速度的同时,巨大的功耗和由此产生巨大的热量。为确保AI服务器在高负载场景下的稳定性,散热成为其设计和维护的关键环节。


挑战一:高速的并行处理能力


AI加速芯片——并行处理算力的核心


CPU作为中央处理核心,其硬件架构中为了满足高性能和低延迟的需求,增强了高速缓存和控制单元的比例。相较之下,算术逻辑单元在整体构造中所占的份额较小,这限制了CPU在大规模并行计算方面的表现,导致CPU在大模型AI计算中的性价比不高。 


AI大模型带来的芯片投资机会

CPU、GPU基本结构,来源:元禾控股


如图所示,绿色部分是芯片的计算单元,黄色是控制单元。简单来说,CPU是要做复杂的逻辑计算,GPU有成千上万个计算单元,可以做大量简单的并行计算,这就是CPU和GPU最直观的差别。


为了满足AI计算对计算能力的持续增长需求,引入了专门的计算单元进行高度并行化的计算。在这一架构中,CPU继续发挥其作为系统的中央处理单元的任务的调度、系统管理和部分计算工作。GPU、FPGA、ASIC 等加速芯片负责处理大量的数据和计算任务。 


AI加速芯片是专门用于处理人工智能应用中大量计算任务的模块。在现有的市场中,英伟达占据了绝大部分的市场份额,其完善的CUDA生态系统成为英伟达最强大的护城河。英伟达的AI芯片采用的GPGPU已成为AI最主要的协处理器解决方案,占据了超过80%的市场份额。


AI大模型带来的芯片投资机会

中国AI加速芯片市场规模,来源:艾瑞咨询、东方证券研究所


AI大模型带来的芯片投资机会

中国AI芯片训练、推理比例,来源:海通证券


据调研,2022年中国AI芯片市场规模为390亿元,预计到2027年可达2180亿元。随着AI模型的优化落地及下游应用的逐步拓展,AI推理芯片的占比将由2022年的52.8%增加至76.3%,我们认为AI推理芯片未来将占据较大市场。 


GPGPU——应用最广的AI芯片


GPGPU全称是通用图形处理器(General-Purpose Graphics Processing Units),与GPU相比,GPGPU优化了芯片上显示接口以及渲染单元的部分,最大程度地发挥其并行计算的能力。GPU能够同时处理大量的矩阵运算和向量计算,非常适合进行深度学习中的矩阵乘法和卷积等计算密集型任务。


AI大模型带来的芯片投资机会

H100芯片结构,来源:元禾控股


以H100芯片为例,该芯片采用台积电4N定制工艺,采用CoWoS封装。除了英伟达,国内的壁仞、登临、沐曦、海光、天数智芯等都采用的是GPGPU架构。采用这个方案的好处就是它的通用性会比较好,不同的客户都能够在GPGPU上找到适合自己的解决方案,能够适应大部分的场景。


任何一个芯片,都是软硬件进行结合的,算法模型如何调用转化成GPU能够理解的语言,进行高效的计算?这就需要一个高效的软件架构。统一计算设备架构(Compute Unified Device Architecture, CUDA),是由英伟达在2006年推出的一套应用软件接口(API),其主要应用于英伟达GPU显卡的调用。


CUDA虽然是开源的,但其生态基本被英伟达垄断。2013年英伟达收购PGI,PGI在高性能计算编译器技术上拥有悠久的历史,在2011年推出了面向32/64位x86架构的CUDA C编译器。目前CUDA生态已经升级到12代版本。CUDA包含光线追踪和神经渲染、物理、地球和生命科学、量子物理学和化学、计算机视觉、数据处理、机器学习和AI的300个加速库和400个AI模型。迄今已有400万名开发者正在与CUDA合作,下载量已经超过了4000万次。 


神经网络的加速,除了CUDA,还可以用其他API,包括opencl、opengl、vulkan等,但整体而言,开发复杂,优化效率包括计算效率都不如CUDA。国内也有厂商尝试开发自己的系统,但性价比非常低,主要在于维护成本高、通用性差。


FPGA、ASIC——AI芯片的其他尝试


除了GPGPU,还有一种AI芯片的架构是FPGA。


AI大模型带来的芯片投资机会

FPGA与GPGOU的工作差异,来源:元禾控股


FPGA的一个特点是低功耗。FPGA可以在片上的多个BRAM 中缓存数据,从而避免频繁地访问外部存储。这样FPGA可以在不读写外部存储的情况下完成一系列连续的算法操作。FPGA的第二个特点是低延时。FPGA可以根据实际的数据需求来直接处理输入从而最小化时延。这使得FPGA在AI推理任务中特别是在需要快速响应的应用中具有显著的优势。但FPGA的劣势在于,其存储资源有限,难以适应大算力的场景。此外,传统FPGA没有固定的浮点运算单元,因此也无法实现浮点计算。


ASIC(Application Specific Integrated Circuit),即专用集成电路,这是另外一种尝试。目前采用这个方案的有谷歌、华为、寒武纪,它的特点就是效率高,但是通用性差、工具链不完善。ASIC是为特定应用而设计的定制芯片,它们在执行特定任务时具有优越的性能和效率,但难以在多种算法下发挥AI芯片的性能,且难以实现CUDA的兼容,需要大量软件人员对下游客户的算法进行重新编译和调试。华为也建立了自己的“CUDA”生态,目前科大讯飞的星火大模型就是在华为昇腾910B及昇腾CANN平台下开发。


存算一体芯片——降低AI芯片的能耗及计算延迟


除了GPGPU、FPGA、ASIC三种比较常见的方案,最近几年也有一些创业公司在做存算一体芯片。


存算一体是将存储单元和计算单元合为一体,省去了计算过程中数据搬运环节,消除了由于数据搬运带来的功耗和延迟,有望彻底解决传统冯·诺伊曼架构的存储墙问题,极大提高计算能效。


存算一体技术有四种:查存计算、近存计算、存内计算、存内逻辑。


AI大模型带来的芯片投资机会

四种存算一体技术,来源:元禾控股


查存计算:GPU中对于复杂函数采用了这种计算方法,是早已落地多年的技术。存储芯片内部的存储单元完成查表计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元 。


近存计算:计算部分通过存储芯片外部的计算芯片完成,将数据靠近计算单元,从而缩小数据移动的延迟和功耗,这种架构设计的代际设计成本较低,适合传统架构芯片转入。


存内计算:计算单元和存储单元位于同一芯片中,但电路设计是分离的;计算部分由存储器内部的独立计算单元完成。这种路线适合算法固定的场景算法计算,目前主要用于语音等轻算力场景。


存内逻辑:存储单元和计算单元完全融合;没有独立的计算单元,直接通过在存储器颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作。


从产业进度来说,存算一体芯片还处于验证到产品化的前期,存算一体配套工具尚处在探索阶段,缺乏成熟的配套工具导致基于存算一体技术的产品在短期内(5 年左右)以小规模量产为主。近些年,以3D堆叠形式的近存计算创业公司较多,但存在较大的功耗及工艺成熟度问题。从应用场景来说,目前存算一体芯片主要在端侧,应用于对低功耗需求强烈、小算力场景;在大算力场景仍然面临很多挑战。


存算一体芯片还有一个问题在于存储器件,以SRAM作为存储器件,其优势是与现有cmos先进工艺兼容,计算速度较快,但其容量很小,需要在算的速度与算的能力之间做取舍;以RRAM/FLASH为存储器件,先进工艺进展较慢,就会严重限制芯片算力。


Chiplet——AMD的芯片小型化策略


芯片面积越大良率越低。在单颗AI芯片封装以内,英伟达一直都坚持单颗计算大芯片的架构。一颗H100芯片面积814 mm²,一张12寸晶圆能切80多颗芯片,英伟达通过屏蔽坏区的方式来间接提升芯片的良率,芯片中即使有坏区仍然能正常使用。


AMD则采用了以Chiplet为核心的多芯粒互连方案。通过 Chiplet的方式,将并行计算部分做成一颗颗小芯粒,与 SoC的不同模块进行互联,特点是良率高、可实现算力灵活部署,但是需要特殊的片内互联协议,需要使用更复杂的封装技术,增加了对芯粒间互联的要求。国内该类创业公司较多,但Chiplet并没有改变芯片是GPGPU的本质,如何实现算力高效的分配和调度以及软件生态的建设仍然是较大挑战。


挑战二:大容量高速的缓存


大模型计算对显存的需求


传统AI计算,在推理阶段,进行业务的输入后,经过一次计算进行业务输出,现有以ChatGPT为代表的大模型,在每生成一个Token后再以该结果为输入再进行下一个Token的推理,大大增加了计算量,计算访存比与传统模型有很大的差异。


AI大模型带来的芯片投资机会

内存带宽的增长远小于芯片数据量的增长,来源:元禾控股


在现有大模型的计算下,显存容量决定了上下文的长度,显存的带宽决定了生成文本的速度,但内存发展速率远低于计算能力的发展速率。在极端情况下,算力的利用率仅有标称算力的1%-2%,HBM是现阶段解决显存问题的方案。


HBM——解决高速计算的内存墙问题


HBM(High Bandwidth Memory,高带宽存储器)是类似近存计算的一种形式,是指通过晶圆级封装,堆叠多层DRAM Die增加带宽。目前HBM国际厂商有三家:SK海力士、美光、三星,国产厂商长鑫存储预计在未来两年内会推出自己的样品,武汉新芯也在3D堆叠上进行了一定的探索布局。


AI大模型带来的芯片投资机会

HBM结构,来源:元禾控股


HBM是1个基本逻辑层和多个DRAM层通过3D堆叠构成,各叠层间通过TSV(Through Silicon Via,硅通孔)互连。DRAM的Logic Die与GPGPU通过硅中间层上的RDL(ReDistribution Layer,重布线层)进行互联 。最终芯片通过硅中间层连接至封装基板。该封装过程即为台积电的CoWoS(Chip on Wafer on Substrate)封装。在上述工艺流程中,TSV是最核心的工艺,TSV成本占整个器件成本的5%。


TSV工艺所需要的设备及材料


AI大模型带来的芯片投资机会

TVS工艺所需材料及设备,来源:元禾控股


这是我们在TSV工艺上主要关注的方向。


首先是深硅刻蚀设备。深孔刻蚀是TSV的关键工艺,目前深硅刻蚀设备主要由美国应用材料、泛林半导体等设备厂商控制。国内的话,根据券商访谈和交流,北方华创已经覆盖了TSV工艺过程中的刻蚀设备,以及ald、cvd 设备,国内市占率70%以上。


其次是电镀铜填充设备。TSV填孔镀铜工序是整个TSV工艺里最核心、难度最大的工艺。用于TSV深孔金属化电镀设备是整个TSV工艺流程中最昂贵的设备之一。目前TSV填充的主流电镀设备商包括美国应用材料公司、美国Lam Research、ASM NEXX和盛美半导体等。


再是晶圆减薄设备。为了实现TSV铜柱的穿透,需在临时键合后使用减薄设备对晶圆进行减薄,全球减薄机厂商主要包括日本Disc0、东京精密、G&N等,三家市场占比约为85%,国内厂商则有华海清科、特思迪等。


还有就是就是TSV缺陷检测设备。对于TSV特定的缺陷机制,传统的三角测距方式不适合对其进行直接测量,目前可行的方式有SEM和共焦测距方式测量。


最后是HBM片间填充材料,海力士HBM的核心竞争力之一就是MRMUF材料,在堆叠的时候,在芯片和芯片中间,用液态的环氧树脂塑封材料来替代传统的NCF,改善工艺速度和良率,目前该类填充材料国产与海外公司存在较大差距。


混合键合——未来高密度连接的解决方案


目前HBM使用焊球凸点或微凸点来实现芯片与基板、芯片与中介层之间的连接,未来随着带宽进一步增加,凸点数量增加,原来的锡焊球将无法满足工艺要求,可能出现凸点掉落、凸点裂纹、凸点未连接、凸点未对准等问题,这是为什么未来采用混合键合的原因。


Cu/SiO2混合键合技术旨在同时实现介质材料和电学互连材料的键合,是目前制造小型化多功能电子设备、实现高密度电学互连的最具潜力、最优解决方案。


当前两种主流的混合键合技术分别是晶圆到晶圆(W2W)和芯片到晶圆(D2W)键合。长存在3D NAND中采用了W2W的混合键合技术,以EVG/SUSS的设备为主,国内主要布局厂商为拓荆,但该技术要求上下芯片尺寸一致,技术通用性较差,Besi在D2W的混合键合上也有很多布局,国内公司华封科技进度较快,实现了量产出货。在HBM领域,武汉新芯也在布局用键合来实现DRAM堆叠的技术。


Groq——尝试用SRAM提升内存带宽


今年上半年比较火的一家企业Groq,它们的LPU在其系统中没有采用高带宽存储器HBM,它使用的是SRAM,速度比GPU所用的存储器快约20倍。但Groq的内存容量只有230MB,在运行Llama-2 70b模型时,需要305张Groq卡才足够,而用H 100则只需要8张卡。


从同等算力来看,如果都是用INT8来推理,采用Groq的方案需要9台包含72片的服务器集群,而如果是H 100达到同等算力大约需要2台8卡服务器,导致Groq成本远大于H 100。Groq以牺牲容量为代价,提升了带宽,在实际使用中反而不能发挥其高带宽的优势,反而因为节点数太多,加大了互联的难度以及成本。


挑战三:高带宽低延迟的互联网络


英伟达在芯片高速互联上的布局


由于所生成的数据越来越多,有关人工智能和大型数据库的工作需要在多台计算机之间拆分进行,仅仅使用更快的处理器是不够的。在此基础上,英伟达发布了自己的NV link、NV switch、Bluefield DPU产品。


2019年,英伟达以69亿美元收购了Mellanox。Mellanox一直致力于InfiniBand和以太网互联产品的研发。回头再看,这对英伟达来说是一个非常成功的收购,是英伟达能做千卡集群、万卡集群的关键因素。英伟达为芯片互联做了很多工作,它的收购案例不止Mellanox这一个,梳理其收购历史,我们可以学习它沿着产业链做并购的思路。


PCIe是GPU互联的主流协议。目前PCIe产品已发展到第六代,X16总带宽达到256GB/s。PCIe是公有协议,与之相对的,NVlink是私有协议,由英伟达汇聚PCIe和QPI共同优势推出。第四代NVlink的带宽能达到900GB/s,是PCIe 5.0带宽的7倍。


在NVSwitch诞生前,英伟达服务器中的GPU都通过NVlink直接互联,但随着GPU数量的增多,已无法实现GPU之间的高速通信,于是英伟达针对自己的服务器内GPU之间的通信,推出了NVSwitch。NVSwitch已发展到第三代,一块NVSwitch3芯片可以提供1.6TB/s单向带宽或者说3.2TB/s的双向带宽。


前端网络和后端网络的融合


AI智算中心有前端网络(Scale out)和后端网络(Scale up)两张网,前端网络负责将AI服务器与数据中心的其他服务器、存储设备和交换机连接起来,后端网络专注于AI集群内部的连接,特别是GPU之间的互连。


目前有厂商尝试用PCIEswitch替代NVSwitch以实现前端网络和后端网络的融合。


随着AI和虚拟现实等更高带宽应用的出现,交换机在数据中心市场迎来巨大发展空间。为满足带宽需求,交换机芯片周围的 SerDes 速度和数量都在增加。但由于Switch芯片需要采用14nm以上的先进制程,目前国产Switch芯片,华为和盛科通信整体比博通、Mavell落后,从市占率来看,Switch芯片国产化率很低。


服务器间高速光通信催生硅光需求


作为信息传输的主要通道,光模块随着传输速率的增加,传统光模块存在良率限制、降本压力大、电损耗限制、散热限制等问题,于是催生了硅光需求。硅光基于CMOS工艺,结合成熟微电子技术和宽带光电子技术,将核心部件集成在一个晶片上,器件尺寸缩小、密集度提升,从而降低光模块的功耗、芯片的成本,提高模块的可靠性。


AI大模型带来的芯片投资机会

硅光模块的结构,来源:元禾控股


CPO(Co Packaged Optics,光电共封装)是与硅光模块/引擎高度协同的技术,它基于先进封装技术将硅光收发模块和ASIC芯片异构集成在一个封装体内,形成具有一定功能的微系统,特点是可降低功耗、提高带宽密度、降低成本。


国外厂商如博通、甲骨文有推出CPO解决方案,CPO在国内市场的商业机会可能不会在短期内迅速出现,一是在先进工艺方面的限制,二是需要产业链上下游的密切配合。


芯片级光互联技术


光互联是基于硅光集成,使用光信号替代Serdes来承载芯片输入输出的数据。根据英特尔的数据,光I/O的性能优越,在下一代的光I/O互联中,总带宽最高可达160Tbps,能效比小于1pJ/bit,与之对比的是单个光模块的带宽仅为1.6-3.2Tbps,能效为15pJ/bit。


AI大模型带来的芯片投资机会

不同传输方案的对比,来源:元禾控股


国际厂商中,Ayar Labs是这个领域已有相关产品的领先企业,得到了英伟达、英特尔等多家巨头投资,从而能够获得比较好的客户资源,也跟英伟达和英特尔合作开发了相应产品。国内公司如果想进入这个领域,就需要考虑清楚跟谁合作,能得到怎样的客户资源,对于机构来说,这也是对创业公司团队能力的判断。


铜互联在短距离传输效率与光模块差异不大,成本更低。2024年3月,英伟达发布了最新采用Blackwell架构的GPU,分别为B200和GB200产品系列,发挥铜互连在短距离的优势,单个柜机即可实现模型的推理。DGX GB200 服务器全部采用电互联,服务器功率达到130kw,散热是带来的主要问题。


挑战四:更加高效的散热和低功耗设计


高密高算力基础设施推动液冷新需求


AI 技术的迅猛发展带动了算力芯片的需求和功率增加,这使得数据中心的 IDC 机柜功率密度不断上升。在行业尝试方面,液冷技术成为解决高密度计算设备散热问题的一个方案。针对散热,主要的液冷方案包括冷板式液冷(非接触式)、单相/两相浸没式液冷(接触式)、喷淋式液冷(接触式)。


算力租赁:AI 基础设施的新型商业模式


目前,除了少数大型互联网企业自身资金实力充沛,可购买较多的GPU,算力储备较充足之外,剩下的中小企业普遍面临算力紧缺,算力租赁需求突出。算力租赁是当前中小企业解决算力需求的最优解之一。算力租赁的问题在于,如何充分调用不同GPU厂商的AI芯片。


出口管制的影响


此前美国修改了对华芯片限制规则,范围从AI芯片的笔记本电脑扩大到更广泛的消费电子领域。根据最新消息,美国对运往中国的用于人工智能加速器和图形处理单元的7纳米或更先进设计的复杂芯片实施出口限制,HBM也是明确被禁止使用。从整体趋势来说,出口管制将会趋严,企业要提前考虑好应对之策。


小结


服务器由传统服务器向AI服务器的转变过程中,最主要的变化是AI芯片的价值占比大幅提升,也带来了①高速的并行处理能力,②大容量高速的缓存,③高带宽低延迟的互联网络,④更加高效的散热和低功耗设计等挑战。目前对于这些问题解决方案很多,但还未形成行业共识,存在很多的投资机会。


AI芯片经过多年的技术路径试错,目前最广泛应用的架构就是GPGPU,GPGPU既兼顾了芯片应用的通用型也兼顾了计算性能。但与CPU等产品不同,决定AI芯片性能的不仅是其算力,也包含了其软件生态,即如何高效的调用AI芯片的算力以及方便开发人员进行模型的开发,未来AI芯片的竞争不仅是算力,更多的是在生态以及工具上的竞争。


除了GPGPU外,其他架构如存算一体芯片、ASIC芯片可能会在特定的应用场景如对能效比、计算延迟要求很高的地方也有其应用价值。


在芯片良率及SoC芯片功能日趋复杂的趋势下,Chiplet会成为厂商研发的方向,如何解决芯片之间高速互联以及封装问题是关键。


如何解决算力和内存之间的矛盾将会是未来AI芯片面临的主要问题,目前还没有确定的解决方案。


HBM带动了3D封装的发展,TSV制造中刻蚀、薄膜沉积设备目前已实现部分的国产替代,电镀、减薄、检测、封装环节的材料以及设备还在国产替代中,尤其是混合键合设备目前进度较为缓慢。


为了实现服务器的高速互联,对高速Serdes、Switch、硅光模块的需求逐渐增多,也是大厂着重布局的方向。


芯片间的光互连还处于早期阶段,铜互连由于成本优势也会长期存在。


AI服务器的大功率带来了对液冷更高的需求,高导热效率、稳定性高的液冷材料以及低成本、低能耗的系统方案集成商具有较大的机会。


AI训练高昂的算力成本,会给中小企业带来巨大的门槛,未来围绕算力租赁可以节省算力的成本。


免责声明:本文不构成任何投资建议,投资者不应以该等信息取代其独立判断或仅根据该等信息做出决策。我们尽可能保证本文信息准确可靠,但对其准确性或完整性不作保证,亦不对因使用该等信息而引发的损失承担任何责任。


文章来自微信公众号“东沙湖基金小镇”,作者“元动力”


AI大模型带来的芯片投资机会

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI