AI资讯新闻榜单内容搜索-Transforme

MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数

状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色，成为了基于注意力的 Transformer 架构的一大有力替代架构。

来自主题: AI技术研报

10459 点击 2024-01-23 15:09

Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

来自主题: AI技术研报

7891 点击 2024-01-22 14:43

来自MABZUAI和Meta的研究人员发表的最新研究，在「非标准」指标上全面比较了常见的视觉模型。

来自主题: AI资讯

8171 点击 2024-01-18 13:07

在自然语言处理（Natural Language Processing，NLP）领域，Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。

来自主题: AI技术研报

8633 点击 2024-01-16 10:13

自动驾驶中的大模型处理作为当前 AI 领域最为火热的前沿趋势之一，可赋能自动驾驶领域的感知、标注、仿真训练等多个核心环节。同时，也可以有效的提升感知精确度，有利于后续规划控制算法的实施，促进端到端自动驾驶框架的发展。

来自主题: AI资讯

9066 点击 2024-01-13 10:59

近年来，随着Transformer模型的大规模发展和应用，模型大小每两年平均增长240倍，GPT-3等大模型的参数增长已经超过了GPU内存的增长。在大算力激增的需求下，越来越多行业人士认识到，新的计算架构或许才是算力破局的关键。

来自主题: AI资讯

9516 点击 2024-01-09 09:14

AI算命将可以预测人类的意外死亡？丹麦科学家用全国600万人的公开数据训练了一个基于Transformer的模型，成功预测了意外死亡和性格特点。

来自主题: AI资讯

3398 点击 2024-01-07 14:45

在 AI 领域，近年来各个子领域都逐渐向 transformer 架构靠拢，只有文生图和文生视频一直以 diffusion + u-net 结构作为主流方向。diffusion 有更公开可用的开源模型，消耗的计算资源也更少。

来自主题: AI资讯

6609 点击 2024-01-06 12:27

几乎是和斯坦福“炒虾洗碗”机器人同一时间，谷歌DeepMind也发布了最新具身智能成果。

来自主题: AI资讯

5413 点击 2024-01-05 16:38

作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。

来自主题: AI资讯

4445 点击 2024-01-03 13:38