AI资讯新闻榜单内容搜索-MoE-Mamba

MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数

状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色，成为了基于注意力的 Transformer 架构的一大有力替代架构。

来自主题: AI技术研报

10313 点击 2024-01-23 15:09