AI资讯新闻榜单内容搜索-Mamba

英伟达成美国大模型开源标杆：Nemotron 3连训练配方都公开，10万亿token数据全放出

英伟达在开源模型上玩的很激进： “最高效的开放模型家族”Nemotron 3，混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底：

来自主题: AI资讯

7373 点击 2025-12-26 15:48

无预训练模型拿下ARC-AGI榜三！Mamba作者用压缩原理挑战Scaling Law

压缩即智能，又有新进展！

来自主题: AI技术研报

8580 点击 2025-12-16 09:56

苹果AI选Mamba：Agent任务比Transformer更好

都说苹果AI慢半拍，没想到新研究直接在Transformer头上动土。（doge）「Mamba+工具」，在Agent场景更能打！

来自主题: AI技术研报

8122 点击 2025-10-21 15:48

Mamba-3惊现AI顶会ICLR 2026！CMU知名华人教授一作首代工作AI圈爆红

曼巴回来了！Transformer框架最有力挑战者之一Mamba的最新进化版本Mamba-3来了，已进入ICLR 2026盲审环节，超长文本处理和低延时是其相对Transformer的显著优势。另一个挑战者是FBAM，从不同的角度探索Transformer的下一代框架。

来自主题: AI资讯

9455 点击 2025-10-13 14:34

刚刚，英伟达新模型上线！4B推理狂飙53倍，全新注意力架构超越Mamba 2

Jet-Nemotron是英伟达最新推出的小模型系列（2B/4B），由全华人团队打造。其核心创新在于提出后神经架构搜索（PostNAS）与新型线性注意力模块JetBlock，实现了从预训练Transformer出发的高效架构优化。

来自主题: AI技术研报

8096 点击 2025-08-26 19:34

Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

英伟达发布全新架构9B模型，以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍，对标Qwen3-8B并在数学、代码、推理与长上下文任务中表现持平或更优。

来自主题: AI资讯

8262 点击 2025-08-19 11:35

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

最近，Mamba 作者之一 Albert Gu 又发新研究，他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net，其用模型内部的动态分块过程取代 tokenization，从而自动发现和操作有意义的数据单元。

来自主题: AI技术研报

7927 点击 2025-07-13 11:37