DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升 关键词: DenseMamba,DenseNet,Mamba,模型训练 近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。 来自主题: AI技术研报 8520 点击 2024-03-11 17:22