AI资讯新闻榜单内容搜索-注意力机制

DeepSeek突然拥抱国产GPU语言！TileLang对标CUDA替代Triton，华为昇腾Day0官宣支持适配

DeepSeek v3.2有一个新改动，在论文里完全没提，只在官方公告中出现一次，却引起墙裂关注。开源TileLang版本算子，其受关注程度甚至超过新稀疏注意力机制DSA，从画线转发的数量就可以看出来。

来自主题: AI技术研报

9317 点击 2025-09-30 10:42

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

刚发V3.1“最终版”，DeepSeek最新模型又来了！DeepSeek-V3.2-Exp刚刚官宣上线，不仅引入了新的注意力机制——DeepSeek Sparse Attention。还开源了更高效的TileLang版本GPU算子！

来自主题: AI资讯

10336 点击 2025-09-29 19:04

1句话高质量生成游戏3D动作，北大新方法刷新动画制作SOTA

北京大学提出了ReMoMask：一种全新的基于检索增强生成的Text-to-Motion框架。它是一个集成三项关键创新的统一框架：（1）基于动量的双向文本-动作模型，通过动量队列将负样本的尺度与批次大小解耦，显著提高了跨模态检索精度；（2）语义时空注意力机制，在部件级融合过程中强制执行生物力学约束，消除异步伪影；（3）RAG-无分类器引导结合轻微的无条件生成以增强泛化能力。

来自主题: AI技术研报

9056 点击 2025-08-09 11:32

OpenAI突然开源1200亿参数MoE模型！专家连夜解码发现：Hidden Size=2880藏惊天陷阱，第3条让GPU厂商集体崩溃！

gpt5来临前夕，oai疑似发布的小模型gpt-oss 120B的架构图已经满天飞了。难得openai要open一次，自然调动了我的全部注意力机制。本来以为oai还要掏出gpt2意思意思，结果看到了一个120B moe。欸？！

来自主题: AI资讯

9895 点击 2025-08-04 15:03

重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5%

GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学（广州）联合研发，提出了一种高效的大模型框架，显著提升模型性能与计算效率。

来自主题: AI技术研报

8950 点击 2025-07-23 10:15

Meta新注意力机制突破Transformer上限，还用上了OpenAI的开源技术

Meta挖走OpenAI大批员工后，又用OpenAI的技术搞出新突破。新架构名为2-Simplicial Transformer，重点是通过修改标准注意力，让Transformer能更高效地利用训练数据，以突破当前大模型发展的数据瓶颈。

来自主题: AI技术研报

7441 点击 2025-07-08 12:01

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

在高质量视频生成任务中，扩散模型（Diffusion Models）已经成为主流。然而，随着视频长度和分辨率的提升，Diffusion Transformer（DiT）模型中的注意力机制计算量急剧增加，成为推理效率的最大瓶颈。

来自主题: AI技术研报

7647 点击 2025-06-28 16:09

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

GSPN是一种新型视觉注意力机制，通过线性扫描和稳定性-上下文条件，高效处理图像空间结构，显著降低计算复杂度。通过线性扫描方法建立像素间的密集连接，并利用稳定性-上下文条件确保稳定的长距离上下文传播，将计算复杂度显著降低至√N量级。

来自主题: AI技术研报

7672 点击 2025-06-18 16:41

刚刚，谷歌AI路线图曝光：竟要抛弃注意力机制？Transformer有致命缺陷！

未来AI路线图曝光！谷歌发明了Transformer，但在路线图中承认：现有注意力机制无法实现「无限上下文」，这意味着下一代AI架构，必须「从头重写」。Transformer的时代，真的要终结了吗？在未来，谷歌到底有何打算？

来自主题: AI资讯

10542 点击 2025-06-17 11:06

技术Blog-4 | 新一代InfLLM：可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型，MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势，这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报

8395 点击 2025-06-16 15:24