小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
7512点击    2026-01-12 10:30

小模型身上的“秘密”这下算是被扒光了!


知名开源项目OpenEvolve作者,刚刚用一篇长文揭示了70M小模型的几个重要发现:


其一,架构的重要性远低于大家的想象。相比之下,模型“形状”(深度-宽度比)更重要。


其二,小模型层数也存在“玄学”,12/32/64层效果好,16/24/48/层效果糟,而且最佳层数为32。


当然了,作者还解密了这一“层数玄学”的背后原因——“隐藏维度”是否大于等于512


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


上述结论一出,社区里迅速刮起了一股讨论之风,大家还与作者进行了各种互动:


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


别急,咱这就详细看看——


发现小模型层数存在“玄学”


开始之前,简单介绍下作者Asankhaya Sharma


他最为人熟知的成就主要包括:1)在很多人还主要围绕模型规模、参数量和训练方法打转时,他率先关注到了大语言模型的“推理时计算”,并以唯一作者的身份发表了一篇论文进行详细叙述;2)开源了OptiLLM、OpenEvolve、Adaptive Classifier等一众知名项目。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


在本次研究之前,他和团队已经发现——


「50% FinePDFs+30% DCLM+20% FineWeb-Edu」是训练小模型GPT-2的最佳数据集组合,使用标准的12层架构,其平均准确率可以达到38.50%。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


于是他们想接着探讨:模型架构是否和数据组成一样重要?


标准的GPT-2使用12层和768隐藏维度。但这设计于2019年,适用于约1.24亿参数。对于一个用10亿tokens训练的70M参数模型,这仍然是最优的吗?


为了弄清这个问题,他们着手开始了一系列实验。


实验第一步——确保除了模型架构,其他因素保持一致,包括模型参数、训练数据、训练时间和硬件配置等。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


然后通过改变7种GPT-2变体的“形状”(即深度和宽度的变化),来对比同一架构内不同“深度-宽度配比”对性能的影响。


结果发现,从4层→64层,模型性能并未如预想那般,随着层数增加或减少而平滑变化,而是清晰分裂成了两个阵营:


  • “好”的层级:包括12L、32L、64L,平均得分在约38%左右;
  • “糟”的层级:包括16L、24L、48L,平均得分在约32%左右。


作者表示,两个层级之间平均相差超过6个百分点,且每个层级内部的差异极小(约0.5%),出现了明显的两极分化


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


原因出在“隐藏维度”上


进一步分析表明,这一现象背后的关键因素是隐藏维度(hidden dimension)


隐藏维度可理解为神经网络的宽度,每个词经由模型转换后都会变成一个数字列表。假设“人工智能”这个词的隐藏维度是768,它就代表这个词在模型内部会被表示成一个由768个数字构成的向量。


作者发现,模型的“隐藏维度”必须大于等于512,这是一个基础门槛


当模型处于12层时,其隐藏维度恰好为512,所以表现出色。


至于宽度更窄的32层和64层模型也能成为“优等生”的原因,主要是它们通过特殊的深度配置进行了“补偿”——


前者属于“黄金补偿点”,在宽度为384的情况下,32层这个特定的深度能最高效地弥补宽度的不足,取得了所有配置中的最高分;而后者属于“暴力补偿”,虽然宽度只有256,但凭借极深的层数强行拉高了性能。


16L、24L和48L处于“死角”,它们的隐藏维度太窄,深度又不在可以弥补的最佳位置。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


由此,作者也总结出了一套规则——


模型要想性能好,必须满足三种条件之一。1)隐藏维度大于等于512;2)正好处于32层;3)位于64层以上的极深层,以进行补偿。


而且必须再次提醒,32层属于全场最佳。当隐藏维度=384时,32层配置获得了38.50%的最佳总体得分,甚至略胜于标准的12层设计。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


进一步发现:“形状”比架构选择更重要


在确定了“32层”这个最佳深度后,作者又比较了12种不同架构的表现,包括LLaMA3、Qwen3、Gemma3等模型。


结果发现,在70M模型范围内,所有现代架构的表现都惊人地相似,平均差异不到2%


  • 自回归模型:包括GPT-2、LLaMA3、Qwen3、Gemma3、MoE等,平均性能集中在32%到33%之间;
  • 扩散模型:包括dLLM、Dhara等,平均性能集中在31%到32%之间。


作者表示,现代架构改进(RMSNorm、RoPE、GQA)是为70亿以上参数的模型设计的,在70M参数的情况下无法带来可衡量的优势。


完整测试结果be like:


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


这也意味着,对小模型来说,精心调整的“形状”可能比选择哪个具体的“架构变体”更重要。


意外之喜:扩散模型有自己的独特优势


此外,虽然扩散模型的平均准确率略低于自回归模型,但研究认为这点“缺陷”完全可以通过其他方面弥补。


这主要体现在两大方面:推理速度和幻觉率


和传统自回归模型相比,扩散模型的推理速度要快上3.8倍,非常适合处理批量任务。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


且在所有测试架构中,扩散模型在衡量真实性的TruthfulQA基准上得分最高(达49.27%),表明其“幻觉”更少。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


作者还顺带解释了这背后的原因,核心有三个:


  • 双向注意力机制允许模型在做预测时考虑完整上下文。
  • 迭代改进使模型能够在多个去噪步骤中“重新评估”其原始预测结果。
  • 非自回归生成模型或许能够减少“滚雪球效应”,即早期幻觉累积成更大的误差。


不过,无论是自回归还是扩散模型,都可以用一个小技巧来增加事实准确性——


作者表示,通过在模型里加入一种叫“Canon层”的特殊结构(本质是一种精心设计的卷积层),普通模型能让事实性得分提升1%,扩散模型效果更明显,能提升超过2%。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


而且增加的“Canon层”仅增加了0.13%的参数开销,性价比极高。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


而更更重要的是,通过使用LLaDA 2.0论文中的Warmup-Stable-Decay方法,可以将现有的自回归模型高效转换为扩散模型。


划重点,需要的数据量、成本、训练时间通通仅为原来的1/10。而且作者发现:


WSD转换不仅与从头训练的结果相当,而且在几项基准测试上超越了后者。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


推出集大成者: Dhara-70M模型


基于所有发现,作者和团队最后推出了Dhara-70M这个模型。


其构建方法为:首先采用最佳的自回归架构(LLaMA3-Canon),然后使用WSD方法将其转换为扩散模型。


如此一来,Dhara-70M也就具备了两者的优势——


既有自回归模型的知识储备,又有扩散模型带来的吞吐量和事实性优势。


小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟


作者表示,这项工作最大的意义或许在于提醒大家——


对于资源有限的小语言模型构建者,不应盲目追求最新的架构魔法。首先应关注基础的“深度-宽度配比”,确保模型不落入“死亡区域”;其次,如果应用场景需要高速处理且对事实准确性要求高,那么扩散模型是一个极具竞争力的选择。


Dhara-70M开源地址:

https://huggingface.co/codelion/dhara-70m

参考链接:

https://huggingface.co/blog/codelion/optimal-model-architecture


文章来自于“量子位”,作者 “一水”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI