AI资讯新闻榜单内容搜索-Mamba

Transformer可以改装成Mamba了：苹果把推理成本直接打成线性

最近，苹果又整了个活儿，很工程、也挺关键：把又贵又强的 Transformer，改造成又便宜又差不多强的 Mamba。而且，性能基本没怎么掉。

来自主题: AI技术研报

8850 点击 2026-04-23 14:46

华人学生立大功！新王Mamba-3直击Transformer死穴，推理效率碾压7倍

Transformer不保？今天，CMU普林斯顿原班人马杀回，新一代开源架构Mamba-3震撼降临。15亿参数战力爆表，性能比Transformer飙升4%。

来自主题: AI技术研报

9188 点击 2026-03-19 17:36

英伟达成美国大模型开源标杆：Nemotron 3连训练配方都公开，10万亿token数据全放出

英伟达在开源模型上玩的很激进： “最高效的开放模型家族”Nemotron 3，混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底：

来自主题: AI资讯

8600 点击 2025-12-26 15:48

无预训练模型拿下ARC-AGI榜三！Mamba作者用压缩原理挑战Scaling Law

压缩即智能，又有新进展！

来自主题: AI技术研报

9716 点击 2025-12-16 09:56

苹果AI选Mamba：Agent任务比Transformer更好

都说苹果AI慢半拍，没想到新研究直接在Transformer头上动土。（doge）「Mamba+工具」，在Agent场景更能打！

来自主题: AI技术研报

9133 点击 2025-10-21 15:48

Mamba-3惊现AI顶会ICLR 2026！CMU知名华人教授一作首代工作AI圈爆红

曼巴回来了！Transformer框架最有力挑战者之一Mamba的最新进化版本Mamba-3来了，已进入ICLR 2026盲审环节，超长文本处理和低延时是其相对Transformer的显著优势。另一个挑战者是FBAM，从不同的角度探索Transformer的下一代框架。

来自主题: AI资讯

10926 点击 2025-10-13 14:34

刚刚，英伟达新模型上线！4B推理狂飙53倍，全新注意力架构超越Mamba 2

Jet-Nemotron是英伟达最新推出的小模型系列（2B/4B），由全华人团队打造。其核心创新在于提出后神经架构搜索（PostNAS）与新型线性注意力模块JetBlock，实现了从预训练Transformer出发的高效架构优化。

来自主题: AI技术研报

9167 点击 2025-08-26 19:34

Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

英伟达发布全新架构9B模型，以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍，对标Qwen3-8B并在数学、代码、推理与长上下文任务中表现持平或更优。

来自主题: AI资讯

9276 点击 2025-08-19 11:35

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

最近，Mamba 作者之一 Albert Gu 又发新研究，他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net，其用模型内部的动态分块过程取代 tokenization，从而自动发现和操作有意义的数据单元。

来自主题: AI技术研报

8995 点击 2025-07-13 11:37

无需CUDA代码给H100加速33%-50%，Flash Attention作者新作火了

无需CUDA代码，给H100加速33%-50%！ Flash Attention、Mamba作者之一Tri Dao的新作火了。

来自主题: AI技术研报

11126 点击 2025-07-11 16:06