DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。
来自主题: AI技术研报
8770 点击 2024-03-11 17:22
近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。