量化是使AI模型更高效的最广泛使用的技术之一,但它存在局限性——并且业界可能很快就会碰到这些局限。
在AI领域,量化是指降低表示信息所需的位数——即计算机能处理的最小单位。打个比方:当有人问现在几点时,你可能会说“中午”——而不是“哦,十二点零一分零四毫秒”。这就是量化;两个答案都对,但一个更精确。实际上需要多少精度取决于上下文。
AI模型包含多个可以量化的组件,尤其是参数——模型用于做出预测或决策的内部变量。考虑到模型运行时需要执行数百万次计算,这一点非常方便。用较少位数表示参数的量化模型在数学上(也因此在计算上)要求更低。(需要明确的是,这与“蒸馏”不同,后者是一个更复杂且更具选择性的参数剪枝过程。)
但量化可能比之前认为的有更多的权衡。
根据哈佛大学、斯坦福大学、麻省理工学院、Databricks和卡内基梅隆大学研究人员的一项研究,如果模型的原始未量化版本经过了长时间的大量数据训练,那么量化模型的性能会更差。换句话说,在某种程度上,直接训练一个小模型可能比缩减一个大模型更好。
这对于训练超大模型(已知可提高答案质量)然后再进行量化以降低服务成本的AI公司来说可能是个坏消息。
这些影响已经显现。几个月前,开发人员和学者报告称,与其他模型相比,量化Meta的Llama 3模型往往“更有害”,这可能是由于其训练方式所致。
“在我看来,AI领域每个人的最大成本现在和未来都将是推理,而我们的研究表明,减少推理成本的一个重要方法不会永远有效,”哈佛大学数学专业学生、论文第一作者塔尼什克·库马尔告诉TechCrunch。
与普遍看法相反,AI模型推理(如ChatGPT回答问题)总体上往往比模型训练更昂贵。例如,谷歌据估计花费了1.91亿美元来训练其旗舰Gemini模型之一——这当然是一笔巨款。但如果该公司要用模型为谷歌搜索查询中的一半生成仅50个字的答案,那么它每年将花费约60亿美元。
大型AI实验室一直在假设“扩大规模”(即增加用于训练的数据量和计算能力)将带来越来越强大的AI,从而在大规模数据集上训练模型。
例如,Meta用15万亿个标记训练了Llama 3。(标记代表原始数据位;100万个标记大约等于75万字。)上一代模型Llama 2仅用了“2万亿”个标记进行训练。今年12月初,Meta发布了新模型Llama 3.3 70B,据该公司称,“在显著降低成本的同时提高了核心性能”。
有证据表明,扩大规模最终会带来收益递减;据报道,Anthropic和谷歌最近训练了巨大的模型,但这些模型未能达到内部基准预期。但几乎没有迹象表明,业界已准备好从这些根深蒂固的扩展方法中切实转变。
那么,如果实验室不愿意在小数据集上训练模型,是否有办法让模型不那么容易受到性能下降的影响呢?可能有。库马尔说,他和合著者发现,以“低精度”训练模型可以使模型更稳健。让我们再深入一点。
这里的“精度”是指数值数据类型能够准确表示的位数。数据类型是数据值的集合,通常由一组可能的值和允许的操作来指定;例如,数据类型FP8仅使用8位来表示浮点数。
如今,大多数模型都以16位或“半精度”进行训练,并以“训练后量化”至8位精度。某些模型组件(例如其参数)会转换为较低精度的格式,但会牺牲一些准确性。可以将其视为将数学计算精确到小数点后几位,但随后四舍五入到十分位,这样通常能兼顾最佳效果。
硬件供应商如英伟达正在推动量化模型推理采用更低精度。该公司的新款Blackwell芯片支持4位精度,特别是称为FP4的数据类型;英伟达将此作为内存和功率受限数据中心的福音。
但极低的量化精度可能并不理想。据库马尔称,除非原始模型的参数数量非常大,否则低于7位或8位精度的模型质量可能会明显下降。
如果这一切听起来有点技术化,不用担心——确实如此。但要点很简单:AI模型尚未被完全理解,并且在许多类型的计算中有效的已知捷径在这里并不适用。如果有人问他们何时开始100米短跑,你不会说“中午”,对吧?当然,这没那么明显,但道理是一样的:
“我们工作的重点是,你不能天真地绕过这些限制,”库马尔总结道。“我们希望我们的工作能为经常寻求越来越低的训练和推理精度默认值的讨论增添细微差别。”
库马尔承认,他和同事的研究规模相对较小——他们计划在未来用更多模型进行测试。但他认为,至少有一个见解会成立:在降低推理成本方面,没有免费的午餐。
“位精度很重要,而且不是免费的,”他说。“你不能永远降低它而不影响模型性能。模型的容量有限,因此,与其试图将万亿个标记装入一个小模型,我认为,人们将投入更多精力对数据进行仔细整理和过滤,以便只将最高质量的数据放入较小的模型中。我对旨在使低精度训练稳定的全新架构持乐观态度,这些架构在未来将很重要。”
文章来自于“非凡产研”,作者“AI商业智库”。