AI资讯新闻榜单内容搜索-Mamba

陈丹琦等人组织的COLM奖项公布：被ICLR拒稿的Mamba入选杰出论文

会议组织者都是 NLP 头部科学家，在语言建模方面有着相当的成果。

来自主题: AI技术研报

7808 点击 2024-10-08 17:48

顶流新会议首届COLM成功举办，Mamba等4篇论文获得杰出论文奖。

来自主题: AI资讯

9915 点击 2024-10-08 17:36

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报

7842 点击 2024-09-21 18:19

把Llama 3蒸馏到Mamba，推理速度最高可提升1.6倍！

来自主题: AI资讯

7152 点击 2024-09-10 14:10

近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。

来自主题: AI技术研报

7897 点击 2024-09-05 15:31

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。

来自主题: AI技术研报

8009 点击 2024-08-31 14:54

Jamba是第一个基于 Mamba 架构的生产级模型。Mamba 是由卡内基梅隆大学和普林斯顿大学的研究人员提出的新架构，被视为 Transformer 架构的有力挑战者。

来自主题: AI资讯

8256 点击 2024-08-24 10:07

Attention is all you need.

来自主题: AI技术研报

9783 点击 2024-08-22 16:44

Mamba 虽好，但发展尚早。

来自主题: AI资讯

6705 点击 2024-08-19 14:46

Mamba 架构的大模型又一次向 Transformer 发起了挑战

来自主题: AI资讯

5863 点击 2024-08-13 17:49