AI资讯新闻榜单内容搜索-Transforme

技术Blog-4 | 新一代InfLLM：可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型，MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势，这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报

9246 点击 2025-06-16 15:24

全球首次，Transformer「混血」速度狂飙65倍！英伟达已下注

扩散建模+自回归，打通文本生成任督二脉！这一次，来自康奈尔、CMU等机构的研究者，提出了前所未有的「混合体」——Eso-LM。有人惊呼：「自回归危险了。」

来自主题: AI技术研报

7691 点击 2025-06-14 15:07

Transformer八周年！Attention Is All You Need被引破18万封神

Transformer已满8岁，革命性论文《Attention Is All You Need》被引超18万次，掀起生成式AI革命。Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。更重要的是，它让人类真正跨入了生成式AI时代。

来自主题: AI资讯

10448 点击 2025-06-13 14:53

时空压缩！剑桥大学提出注意力机制MTLA：推理加速5倍，显存减至1/8

在大语言模型蓬勃发展的背景下，Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题，成为众多研究试图突破的重点

来自主题: AI技术研报

9337 点击 2025-06-11 11:43

谷歌Transformer过时了？清华姚班校友等三连击，爆改注意力！

RNN太老，Transformer太慢？谷歌掀翻Transformer王座，用「注意力偏向+保留门」取代传统遗忘机制，重新定义了AI架构设计。全新模型Moneta、Yaad、Memora，在多个任务上全面超越Transformer。这一次，谷歌不是调参，而是换脑！

来自主题: AI技术研报

9611 点击 2025-06-07 14:19

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

编程智能体也有「进化论」！Transformer作者初创Sakana AI与UBC推出达尔文-哥德尔机（DGM），能自动改写自身代码，性能翻倍超越人工设计。还能跨语言迁移、发明新工具。AI要觉醒了？

来自主题: AI技术研报

10601 点击 2025-06-03 11:36

微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

随着大语言模型 (LLM) 的出现，扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此，无论是在工业界还是学术界，探索如何扩展 Transformer 模型日益成为一种趋势。

来自主题: AI技术研报

9140 点击 2025-06-03 09:58

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

曾撼动Transformer统治地位的Mamba作者之一Tri Dao，刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。

来自主题: AI技术研报

9076 点击 2025-06-02 15:04

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作，首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT（Joint Diffusion Transformer）框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报

10161 点击 2025-05-29 14:20

大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

大模型做数独，总体正确率只有15%？？？

来自主题: AI资讯

11028 点击 2025-05-28 15:18