涌现(Emergence),是生成式AI浪潮的一个关键现象:当模型规模扩大至临界点,AI会展现出人类一般的智慧,能理解、学习甚至创造。
「涌现」也发生在现实世界——硅基文明一触即发,AI领域的创业者、创造者,正在用他们的智慧与头脑,点亮实现AGI的漫漫征途。
在新旧生产力交替之际,《智能涌现》推出新栏目「涌现36人」,我们将通过与业界关键人物的对话,记录这一阶段的新思考。
一场超算比赛的激烈程度,或许不亚于一场F1赛车比赛。
所有的队伍,要经过三轮厮杀,从美国厮杀到欧洲、再到亚洲。来自全球顶尖学校的学生队伍,各自带着他们最先进的算力前往赛场。
当每一个队伍被分派五道应用题时,他们要调教好服务器里面的七八个裸金属硬疙瘩,让它计算超越人脑所能回答的复杂题目。
作为清华大学计算机系的教授,翟季冬在过去多次带领学生参与,还曾经拿过十几次冠军。不过他发现,超算比赛几乎等同于一次英伟达先进GPU的集体展示——几乎所有队伍,清一色标配英伟达的机器。
情况能否有一些改变?
这个问题一直萦绕在翟季冬心头,这也是「清程极智」诞生的原因之—,想要让国产的算力也能逐渐站到台前。有所不同的是,不与过去大多数国产芯片创业者一般,他并不打算从重资产的硬件方向切入算力赛道。
在过去,中国的芯片创业基本集中在wifi芯片、MCU等更普适的领域,尝试自下而上突围。直到2020年前后,随着国际博弈趋势加剧,国内才渐渐掀起了以GPU为代表的AI芯片创业热潮,直接切入半导体、AI的要塞。
但这个赛道过去几乎是充满艰辛,顶着压力前进。国产AI芯片的对手只有一个,牌桌对面是几乎垄断着全球半导体行业所有优势资源的英伟达。
从另一个角度看,这正是中国AI芯片的机会。
只是,新的变化是,经过几年的沉淀,大家逐渐正视原来的雄心,新的反思出现。一些现实摆在眼前:尽管中国大部分AI芯片喊出了“对标英伟达”的口号,但被大模型厂商实际使用时,软硬件的短板难免暴露。
“想用三四年超越英伟达,是一个不可能的任务,中国的芯片厂商只在硬件层硬拼英伟达的打法是不是行得通?”在先进制程落后,积贫积弱的情况下,尝试从软件层面切入创新,是盘活国产芯片“蚂蚁雄兵”的重要一环。
而这正是翟季冬和「清程极智」团队想做的事情。
显然,在过去,软件几乎是AI芯片经常被忽视的环节。如果以英伟达为参考,可以发现,英伟达并非一家简单的硬件公司,相反,他们反而更愿意以软件公司自诩——英伟达负责软件的人员,几乎是硬件团队的数倍。
而在软件上持续下功夫,也让英伟达在过去受益匪浅。一个有意思的现象是,当人工智能的发展迅猛,从2013年的卷积结构,迭代到如今的Transformer,芯片的热潮跌宕起伏,但英伟达的硬件始终万变不离其宗”。翟季冬表示,这正是由于英伟达的计算芯片上层有灵活的软件作为支撑。
翟季冬向《智能涌现》介绍,目前,「清程极智」的团队推出了「清程Pro」、「清程Pro Max」的软件平台,从软件的方式切入,优化国产算力,让国产算力也能有不输英伟达产品的效果。
比如,经过实测,「清程Pro」与某国产芯片合作后,将芯片推理的吞吐量提升了 1.7 倍,远超于英伟达同类产品;「清程Pro Max」则从芯片之间的连接入手,能够在两三台服务器互连的情况下,把大模型推理吞吐量提高大约五六倍。
据翟季冬介绍,在某国产卡四卡平台上,清程极智的推理系统FastDecode 对某 130B 大模型可达到相比于 vLLM 多达 7 倍的生成吞吐量。
“软件可以帮你做好多事情,一定程度上可以弥补硬件本身的缺陷”,目前,「清程极智」已经与不少国产芯片厂商、国产大模型厂商达成了深度合作。
在此前,翟季冬的团队还曾经研发出能够在超级计算机上训练百万亿参数模型的「八卦炉」系统。令人难以置信的是,这台有足球场大小的超算系统,背后的芯片全部都是国产芯片。
翟季冬介绍,在超算上验证过的「八卦炉」系统是清程极智的核心技术之一,提供针对芯片体系架构的算子编译优化,以及面向超大规模集群的并行计算解决方案,包括网络通信优化,容错系统,负载均衡等,未来将支持更多的国产算力,进行高达十万卡的超大规模训练。
翟季冬判断,未来中国的AI芯片行业,在训练侧或许只有少数几家能够胜出,但中国在端侧应用的想象力会比美国更强,推理芯片必将百花齐放,明年下半年或许会有更多新公司的涌现。
而在这种趋势下,分散的中国AI芯片市场,给软件创新的涌现,提供了一块湿润的土壤。
以下《智能涌现》与翟季冬的交流实录(略经摘编)
翟季冬:我在清华的时候,2014年就开始带着本科生去参加全球超算比赛,每年是有三场比赛,美国一场,欧洲一场,亚洲一场。我们会带一个小规模集群,包括几台服务器,每台服务器有多个加速卡。
主办方会提供五道左右应用程序,每个队伍在各自携带的集群上优化应用程序,最终看哪个队伍整体性能最高。有点像F1赛车,我们既要带不错的硬件,同时也要把这些程序在机器上的性能发挥到极致。
我们总共在国际超算比赛中拿到十几次冠军,但是我们之前用的都是英伟达最好的GPU去参赛,比如H100、A100。
我们团队在智能算力优化方向积累了很多年,这次想要通过产学研的机制去更好地推动这个方向,同时也助力国产芯片的发展。
翟季冬:国产芯片目前的算力性能虽然相比英伟达还存在一定差距,但是整体性能还不错。国产芯片目前主要的问题是软件生态。国内目前做AI芯片会有十几家,但是我们发现依然有许多用户对国产芯片的接受程度不高。
比如大家要做很多一些酷炫的AI应用,上层模型在标准的开源版本上有所改动,这时在国产芯片上运行就可能遇到一些问题,而使用英伟达的芯片遇到的问题就少得多。
我们思考的问题是,怎么能把国产算力市场盘活,让上层的大模型应用感受不到国产芯片在使用过程中一些不顺畅的地方,或者说尽可能获得和英伟达一样的使用体验。
其实在十年前,大家也觉得,相对于成熟的CPU体系,英伟达的 GPU不好用。英伟达也是经历了好多年才构建出成熟的软件生态的,国产AI芯片公司都是2016年之后成立,有的是2020年左右,如果说想用三年的时间超过英伟达,这是一个比较大的挑战。
我们也在想,中国芯片如果完全复刻英伟达的路线,是一个最简单可行的思路,但是这条思路是不是最好?可能还需要进一步思考。
我认为,国产芯片如果能把软件做好,硬件也能发挥到极致。
智能涌现:你们现在的商业模式是什么?
翟季冬:我们的核心技术集中在智能算力系统软件。从商业模式来说,我们会将这一系列的软件与算力结合起来,使算力变得更好用,以不同形式直接交付给终端用户。
我们今年上半年的计划是,和底层芯片厂商紧密合作,同时在上层帮助大模型厂商无感迁移模型到国产芯片上。有几家知名国产大模型公司都是清华计算机系孵化的,我们跟这些机构有很多深度的合作。
智能涌现:你们怎么用软件的方式,去解决国产芯片硬件层面不好用的问题?
翟季冬:我们曾经在某国产芯片上加上我们的软件,形成软硬一体化解决方案「清程Pro」,把大模型推理吞吐提高了1.7倍。后来我们在此基础上做了一些硬件改进,形成了「清程Pro Max」上,可以把吞吐提高大约五六倍。
软件可以帮你做好多事情,一定程度上可以弥补硬件本身的缺陷。
智能涌现:优化是一锤子买卖吗?如何提升算力优化的效率?
翟季冬:从我们系统软件的设计角度看,给任何一种芯片做的优化,再用到其它芯片架构上是不需要全部重新实现的。因为我们的软件在设计上有大量是共性的,我们在最底层的编译器,会有一层统一中间表示,会跟各种芯片架构去对齐,这样不同厂商可以买不同的AI加速芯片,用我们的一套软件,也能支持多种芯片。换句话说,上层模型一直在迭代,而清程的技术能力可以持续高效地支持新兴模型的底层算子优化,未来跟各芯片厂商和模型厂商会是持续合作的状态,不会只是一锤子买卖。
智能涌现:咱们的技术壁垒是什么?
翟季冬:第一个是AI编译器,它的核心作用是把上层模型算子高效地转换成底层AI芯片可以执行的代码,把底层不同AI芯片的计算能力释放出来。我们清华大学计算机系高性能所的实验室在这块有非常好的技术积累。
第二个是并行系统。当前的计算系统是一个高度并发的系统,无论是大模型训练、微调或推理,都需要把模型映射到多块AI芯片、以及AI芯片内部的多个功能单元。
模型如何拆分,通信如何高效完成,这些都是并行系统需要去考虑的事情。我们在大规模并行系统方面,做过很多相关的工作。
智能涌现:但是行业里面,是不是还没有这种围绕创新方式的反思?
翟季冬:不能说完全没有反思,但还需要有更多思考,核心痛点在哪?原创力在哪?
我认为现在中国芯片所面临的核心痛点,是如何要让这些芯片变得更好用,真正把底层的算力给发挥出来。
智能涌现:你觉得怎么看中国芯片公司过去几年的打法?
翟季冬:英伟达花了20年,把硬件、软件积累起来,已经有很多创新内化在产品中。国产芯片不是通过学习它的公开这些材料简单的模仿就能超过他。
如果中国公司想要在训练侧超越英伟达,除非你有本质的创新,中国发展其实不要简单的copy,模仿人家永远只能是跟在人家后面,我觉得核心的要有自己的科技创新。
一个更有价值的思考是:中国的芯片公司在国际供应链上明确受限这种情况下,我们怎么能通过软件和硬件协同创新来突破重围?
这是中国芯片一个更好的出路。我们其实可以通过软件的方法,有效地把这些芯片给整合起来。
像英伟达这么多年,它的架构本身没变。从2013年的卷积,到现在的Transformer,英伟达的底层架构不变,它通过软件来想办法帮用户去适配,我觉得这就是软件的意义,因为软件相对比较灵活。
智能涌现:为什么是选择在中国,做这种算力软件优化方向的创业?
翟季冬:在国外,做算力相关的软件只要把英伟达、 AMD两家服务好,基本上也就解决问题了。美国现在英伟达是一家独大,去整合其他芯片的意义有限,但是在中国,这反而有机会。
如果英伟达所有的算力对中国都开放,那么中国芯片成长的机会也会少很多。
对于国产芯片来说,英伟达的弱点才是他们的机会点,如果你盯着他的强项去做的话,很难超越他。中国的芯片市场越分散,端侧芯片的场景越分散,反而越能给软件创业带来更多机会。
智能涌现:有没有感觉现在国内的芯片厂商比较各自为政,缺乏合力?
翟季冬:英伟达是一家很有野心的公司。他们做了一系列GPU加速卡,然后又收购了网络芯片公司迈络思、又做了自己的 ARM CPU,他想做一体机,甚至想收购 ARM。但是国内的大部分芯片厂商其实都没有野心和能力去整合,大部分国产厂商都很分散,有的更偏向于推理,有的更偏向于训练,所以我感觉现在国产的算力很难形成合力。
但是从另一个角度来看,这反而对算力软件的创业有机会,我认为这个现状,在未来5-10年还是会存在。
智能涌现:国内坚持做万卡训练的芯片公司,是因为buy in了scaling law?您怎么看,它会持续吗?
翟季冬:所谓的大模型可以理解为将海量的数据压缩起来,放到一个千亿或者万亿的数据库里,是一个数据压缩的过程。
如果编码和压缩算法更高效,那可能原来用万亿参数才能压缩,现在用5000亿的模型就可以完成压缩了。
如果能够在单位的参数量内集成更多的知识,那就不需要一味的追求这个大参数量。大模型参数变大,我认为是无奈之举,未来在算法层面肯定还是需要去不断创新。
智能涌现:硅谷有很多新架构的芯片出现,您觉得中国未来也会出现这种现象吗?
翟季冬:与美国相比,中国的应用场景更多,端侧如何把性能、成本、功耗能做到极致,是非常关键的。
在未来,端侧相比服务器侧会更百花齐放,所以端侧软件在这里面起的作用也会更大。
智能涌现:不过国产芯片有的从训练做起,有的从推理切入,其实从商业的角度来看,从训练还是推理哪一侧做起更好?
翟季冬:从中国发展角度来说,我认为训练和推理都很重要,如果连算力集群都要靠特殊途径获取,从国家和产业发展的角度都是不可持续的。万卡国产训练平台的要求很高,可能只有几家企业最后能胜出。
对于一些公司来说,可能短期内在训练侧卷不过某些公司,或者市场上有一些公司可以买到可用的芯片,那他的策略可能就会往端侧偏移。
今年是大模型应用的元年,目前还在探索应用的阶段,如果应用近两年爆发的话,端侧推理的需求也会随之爆发。端侧对成本更敏感,场景也会更多。
美国大模型训练虽然要比中国做的更好一点,但是中国端侧应用的想象力还是要比美国更强一些,端侧其实也在各种尝试探索,有可能明年或者今年下半年,可能慢慢的就会有一些现象级应用冒出来。
智能涌现:但是你们不做硬件,后续怎么去很好发挥软件的能力?
翟季冬:虽然我们目前不做芯片,但是我们已经跟芯片厂商有很多深度合作。芯片厂商给我们开放了底层的接口,我们能够从非常贴近芯片的层面去进行软件开发。
文章来自于“智能涌现”,作者“邱晓芬”。