AI TNT— 让一部分先用AI实现商业化

精彩精彩，第一个把爆火Mamba架构真正扩展到足够大的工作来了。 520亿参数，还是Mamba+Transformer混合架构。它的名字叫Jamba。

来自主题: AI技术研报

5733 点击 2024-03-30 14:01

【新智元导读】52B的生产级Mamba大模型来了！这个超强变体Jamba刚刚打破世界纪录，它能正面硬刚Transformer，256K超长上下文窗口，吞吐量提升3倍，权重免费下载。

来自主题: AI技术研报

5494 点击 2024-03-29 16:43

Mamba时代来了？

来自主题: AI技术研报

5684 点击 2024-03-29 15:09

近期，来自华为诺亚方舟实验室的研究者提出了 DenseSSM，用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中，DenseSSM 保留了对最终输出至关重要的精细信息。

来自主题: AI技术研报

8519 点击 2024-03-11 17:22

去年 12 月，新架构 Mamba 引爆了 AI 圈，向屹立不倒的 Transformer 发起了挑战。如今，谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。

来自主题: AI技术研报

4587 点击 2024-03-03 18:10

几天前，ICLR 2024 的最终接收结果出来了。

来自主题: AI资讯

4522 点击 2024-02-25 16:10

模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。

来自主题: AI技术研报

9737 点击 2024-02-04 14:03

一项ICLR拒稿结果让AI研究者集体破防，纷纷刷起小丑符号。争议论文为Transformer架构挑战者Mamba，开创了大模型的一个新流派。发布两个月不到，后续研究MoE版本、多模态版本等都已跟上。

来自主题: AI资讯

4405 点击 2024-01-27 10:57

去年年底因颠覆Transformer一战成名的Mamba架构论文，竟然在ICLR 2024同行评审中被打出3分的低分，因而可能被拒收？这桩疑案今早一被曝出，立刻引发轩然大波，连LeCun都跳出来喊冤。

来自主题: AI资讯

6514 点击 2024-01-26 13:32

状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色，成为了基于注意力的 Transformer 架构的一大有力替代架构。

来自主题: AI技术研报

9737 点击 2024-01-23 15:09