AI资讯新闻榜单内容搜索-Mamba

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Mamba
Mamba架构第一次做大!混合Transformer,打败Transformer

Mamba架构第一次做大!混合Transformer,打败Transformer

Mamba架构第一次做大!混合Transformer,打败Transformer

精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。 520亿参数,还是Mamba+Transformer混合架构。 它的名字叫Jamba。

来自主题: AI技术研报
6196 点击    2024-03-30 14:01
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

【新智元导读】52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞吐量提升3倍,权重免费下载。

来自主题: AI技术研报
5961 点击    2024-03-29 16:43
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术

CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术

CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术

视频理解因大量时空冗余和复杂时空依赖,同时克服两个问题难度巨大,CNN 和 Transformer 及 Uniformer 都难以胜任,Mamba 是个好思路,让我们看看本文是如何创造视频理解的 VideoMamba。

来自主题: AI资讯
6332 点击    2024-03-24 21:44
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。

来自主题: AI技术研报
9044 点击    2024-03-11 17:22
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压

DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压

DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压

线性RNN赢了?近日,谷歌DeepMind一口气推出两大新架构,在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度,并且成功扩展到了14B。

来自主题: AI资讯
6139 点击    2024-03-04 15:15
RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。

来自主题: AI技术研报
5115 点击    2024-03-03 18:10