AI资讯新闻榜单内容搜索-transforme

3D基础模型时代开启？Meta与牛津大学推出VGGT，一站式Transformer开创高效3D视觉新范式

「仅需一次前向推理，即可预测相机参数、深度图、点云与 3D 轨迹 ——VGGT 如何重新定义 3D 视觉？」

来自主题: AI技术研报

6460 点击 2025-03-29 13:31

在过去的一两年中，Transformer 架构不断面临来自新兴架构的挑战。

来自主题: AI技术研报

5891 点击 2025-03-24 14:17

首个基于混合Mamba架构的超大型推理模型来了！就在刚刚，腾讯宣布推出自研深度思考模型混元T1正式版，并同步在腾讯云官网上线。对标o1、DeepSeek R1之外，值得关注的是，混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

来自主题: AI资讯

9087 点击 2025-03-22 11:12

谷歌团队发现了全新Scaling Law！新方法DiLoCo被证明更好、更快、更强，可在多个数据中心训练越来越大的LLM。

来自主题: AI技术研报

5445 点击 2025-03-16 16:09

何恺明LeCun联手：Transformer不要归一化了，论文已入选CVPR2025。

来自主题: AI技术研报

8818 点击 2025-03-15 17:12

Transformer架构迎来历史性突破！刚刚，何恺明LeCun、清华姚班刘壮联手，用9行代码砍掉了Transformer「标配」归一化层，创造了性能不减反增的奇迹。

来自主题: AI技术研报

5965 点击 2025-03-15 14:11

TimeDistill通过知识蒸馏，将复杂模型（如Transformer和CNN）的预测能力迁移到轻量级的MLP模型中，专注于提取多尺度和多周期模式，显著提升MLP的预测精度，同时保持高效计算能力，为时序预测提供了一种高效且精准的解决方案。

来自主题: AI技术研报

7163 点击 2025-03-10 09:35

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下文时展现出了更高的速度和质量，其推理速度比同类模型快了2.5倍，标志着一种新的技术突破。

来自主题: AI资讯

8394 点击 2025-03-10 00:28

CVPR 2025，混合新架构MambaVision来了！Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA，显著超越了基于Transformer和Mamba的模型。

来自主题: AI技术研报

7676 点击 2025-03-08 13:10

现有的可控Diffusion Transformer方法，虽然在推进文本到图像和视频生成方面取得了显著进展，但也带来了大量的参数和计算开销。

来自主题: AI技术研报

6074 点击 2025-03-03 10:06