AI资讯新闻榜单内容搜索-LSTM

原作者带队再次改造xLSTM，7B模型速度最快超Mamba 50%，权重代码全开源

近年来，大型语言模型（LLM）通过大量计算资源在推理阶段取得了解决复杂问题的突破。推理速度已成为 LLM 架构的关键属性，市场对高效快速的 LLM 需求不断增长。

来自主题: AI技术研报

4719 点击 2025-03-20 09:26

Transformer模型自2017年问世以来，已成为AI领域的核心技术，尤其在自然语言处理中占据主导地位。然而，关于其核心机制“注意力”的起源，学界存在争议，一些学者如Jürgen Schmidhuber主张自己更早提出了相关概念。

来自主题: AI技术研报

6118 点击 2024-12-13 14:24

与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比，ViL 的性能更胜一筹。

来自主题: AI技术研报

8168 点击 2024-06-08 15:55

20 世纪 90 年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来，LSTM 经受住了时间的考验，并为众多深度学习的成功案例做出了贡献。然而，以可并行自注意力为核心 Transformer 横空出世之后，LSTM 自身所存在的局限性使其风光不再。

来自主题: AI资讯

7124 点击 2024-05-10 10:19