AI资讯新闻榜单内容搜索-Transforme

把RoPE扔掉，AI更能看懂长上下文！Transformer作者团队开源大模型预训练新方法

针对大模型长文本处理难题，Transformer架构的核心作者之一Llion Jones领导的研究团队开源了一项新技术DroPE。

来自主题: AI资讯

7796 点击 2026-01-14 10:49

深夜，梁文锋署名的DeepSeek新论文又来了。这一次，他们提出全新的Engram模块，解决了Transformer的记忆难题，让模型容量不再靠堆参数！

来自主题: AI技术研报

5825 点击 2026-01-13 16:11

借鉴人类联想记忆，嵌套学习让AI在运行中构建抽象结构，超越Transformer的局限。谷歌团队强调：优化器与架构互为上下文，协同进化才能实现真正持续学习。这篇论文或成经典，开启AI从被动训练到主动进化的大门。

来自主题: AI技术研报

9601 点击 2026-01-09 11:24

Transformer 已经改变了世界，但也并非完美，依然还是有竞争者，比如线性递归（Linear Recurrences）或状态空间模型（SSM）。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。

来自主题: AI技术研报

8763 点击 2026-01-07 17:22

英伟达在开源模型上玩的很激进： “最高效的开放模型家族”Nemotron 3，混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底：

来自主题: AI资讯

7467 点击 2025-12-26 15:48

浙江大学ReLER团队开源ContextGen框架，攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构，通过双重注意力机制，实现布局精准锚定与身份高保真隔离，在基准测试中超越开源SOTA模型，对标GPT-4o等闭源系统，为定制化AI图像生成带来新突破。

来自主题: AI技术研报

9047 点击 2025-12-22 16:08

AI不应是巨头游戏，模型也不是越大越聪明。近日，「Transformer八子」中的Ashish Vaswani和Parmar共同推出了一个8B的开源小模型，剑指Scaling Law软肋，为轻量化、开放式AI探索了新方向。

来自主题: AI资讯

8233 点击 2025-12-20 10:31

过去三年，扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限，让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报

7484 点击 2025-12-16 16:27

最近，网友们已经被AI「手指难题」逼疯了。给AI一支六指手，它始终无法正确数出到底有几根手指！说吧AI，你是不是在嘲笑人类？其实这背后，暗藏着Transformer架构的「阿喀琉斯之踵」……

来自主题: AI技术研报

6543 点击 2025-12-16 10:37

现在的大学生该选什么专业？未来一百年的大学会是什么样子？业界 AI 如此强势，学界还能做什么？谷歌在过去二十多年里做对了什么，又有哪些遗憾？

来自主题: AI资讯

10171 点击 2025-12-15 10:45