AI资讯新闻榜单内容搜索-Transforme

腾讯押注非Transformer！推理模型混合Mamba也能搞，深度思考也能秒回

首个基于混合Mamba架构的超大型推理模型来了！就在刚刚，腾讯宣布推出自研深度思考模型混元T1正式版，并同步在腾讯云官网上线。对标o1、DeepSeek R1之外，值得关注的是，混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

来自主题: AI资讯

11142 点击 2025-03-22 11:12

谷歌团队发现了全新Scaling Law！新方法DiLoCo被证明更好、更快、更强，可在多个数据中心训练越来越大的LLM。

来自主题: AI技术研报

6572 点击 2025-03-16 16:09

何恺明LeCun联手：Transformer不要归一化了，论文已入选CVPR2025。

来自主题: AI技术研报

11212 点击 2025-03-15 17:12

Transformer架构迎来历史性突破！刚刚，何恺明LeCun、清华姚班刘壮联手，用9行代码砍掉了Transformer「标配」归一化层，创造了性能不减反增的奇迹。

来自主题: AI技术研报

8164 点击 2025-03-15 14:11

TimeDistill通过知识蒸馏，将复杂模型（如Transformer和CNN）的预测能力迁移到轻量级的MLP模型中，专注于提取多尺度和多周期模式，显著提升MLP的预测精度，同时保持高效计算能力，为时序预测提供了一种高效且精准的解决方案。

来自主题: AI技术研报

8857 点击 2025-03-10 09:35

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下文时展现出了更高的速度和质量，其推理速度比同类模型快了2.5倍，标志着一种新的技术突破。

来自主题: AI资讯

10206 点击 2025-03-10 00:28

CVPR 2025，混合新架构MambaVision来了！Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA，显著超越了基于Transformer和Mamba的模型。

来自主题: AI技术研报

9868 点击 2025-03-08 13:10

现有的可控Diffusion Transformer方法，虽然在推进文本到图像和视频生成方面取得了显著进展，但也带来了大量的参数和计算开销。

来自主题: AI技术研报

7835 点击 2025-03-03 10:06

Transformer 很成功，更一般而言，我们甚至可以将（仅编码器）Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布（iid）采用假设构建的，因此很自然可以尝试将 Transformer 用于它们。

来自主题: AI技术研报

7013 点击 2025-03-02 13:22

Diffusion Transformer模型模型通过token粒度的缓存方法，实现了图像和视频生成模型上无需训练的两倍以上的加速。

来自主题: AI技术研报

7742 点击 2025-02-28 15:06