
非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1
非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1Mamba 架构的大模型又一次向 Transformer 发起了挑战
来自主题: AI资讯
5228 点击 2024-08-13 17:49
Mamba 架构的大模型又一次向 Transformer 发起了挑战
在 AI 赛道中,与动辄上千亿参数的模型相比,最近,小模型开始受到大家的青睐。比如法国 AI 初创公司发布的 Mistral-7B 模型,其在每个基准测试中,都优于 Llama 2 13B,并且在代码、数学和推理方面也优于 LLaMA 1 34B。