
谷歌更新Transformer架构,更节省计算资源!50%性能提升
谷歌更新Transformer架构,更节省计算资源!50%性能提升谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths(MoD),改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源,跳过一些不必要计算,显著提高训练效率和推理速度。
来自主题: AI技术研报
6005 点击 2024-04-05 17:04
谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths(MoD),改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源,跳过一些不必要计算,显著提高训练效率和推理速度。