AI资讯新闻榜单内容搜索-Attention

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Attention

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」

自 OpenAI 发布 Sora 以来，AI 视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力，我们已经可以看到接近现实的视频生成效果。但在模型逼真度不断提升的同时，速度瓶颈却成为横亘在大规模应用道路上的最大障碍。

来自主题: AI技术研报

10590 点击 2025-05-08 10:15

论文读得慢，可能是工具的锅，一手实测科研专用版「DeepSeek」

论文读得慢，可能是工具的锅，一手实测科研专用版「DeepSeek」

论文读得慢，可能是工具的锅，一手实测科研专用版「DeepSeek」

「未来，99% 的 attention 将是大模型 attention，而不是人类 attention。」这是 AI 大牛 Andrej Karpathy 前段时间的一个预言。这里的「attention」可以理解为对内容的需求、处理和分析。也就是说，他预测未来绝大多数资料的处理工作将由大模型来完成，而不是人类。

来自主题: AI资讯

10733 点击 2025-04-07 17:09

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

Attention 还在卷自己。

来自主题: AI技术研报

9412 点击 2025-04-05 14:17

与真格戴雨森聊 Agent：各行业都会遭遇 “李世石时刻”，Attention is not all you need

与真格戴雨森聊 Agent：各行业都会遭遇 “李世石时刻”，Attention is not all you need

与真格戴雨森聊 Agent：各行业都会遭遇 “李世石时刻”，Attention is not all you need

晚点：过去将近 6 个月，AI 领域最重要的两件事，一是 OpenAI 去年 9 月 o1 发布，另一个是近期 DeepSeek 在发布 R1 后掀起全民狂潮。我们可以从这两个事儿开始聊。你怎么看 o1 和 R1 分别的意义？

来自主题: AI资讯

10564 点击 2025-03-29 00:33

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

大模型同样的上下文窗口，只需一半内存就能实现，而且精度无损？前苹果ASIC架构师Nils Graef，和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。

来自主题: AI资讯

8431 点击 2025-03-17 19:52

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里，大语言模型的上下文窗口长度基准线被拉升，以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。

来自主题: AI技术研报

9222 点击 2025-03-12 14:53

DeepSeek的MLA，任意大模型都能轻松迁移了

DeepSeek的MLA，任意大模型都能轻松迁移了

DeepSeek的MLA，任意大模型都能轻松迁移了

DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界，特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络（Multi-head Latent Attention, MLA）是其经济推理架构的核心之一，通过对键值缓存进行低秩压缩，显著降低推理成本 [1]。

来自主题: AI技术研报

7021 点击 2025-03-07 10:24

“Transformer就像燃油车，attention-free才是新能源” | 对话RWKV创始人彭博

“Transformer就像燃油车，attention-free才是新能源” | 对话RWKV创始人彭博

“Transformer就像燃油车，attention-free才是新能源” | 对话RWKV创始人彭博

当DeepSeek引发业界震动时，元始智能创始人彭博正专注于一个更宏大的愿景。

来自主题: AI资讯

9501 点击 2025-02-27 11:02

YOLO已经悄悄来到v12，首个以Attention为核心的YOLO框架问世

YOLO已经悄悄来到v12，首个以Attention为核心的YOLO框架问世

YOLO已经悄悄来到v12，首个以Attention为核心的YOLO框架问世

YOLO 系列模型的结构创新一直围绕 CNN 展开，而让 transformer 具有统治优势的 attention 机制一直不是 YOLO 系列网络结构改进的重点。这主要的原因是 attention 机制的速度无法满足 YOLO 实时性的要求。

来自主题: AI技术研报

10506 点击 2025-02-22 14:14

高效Attention引擎是怎样炼成的？陈天奇团队FlashInfer打响新年第一枪！

高效Attention引擎是怎样炼成的？陈天奇团队FlashInfer打响新年第一枪！

高效Attention引擎是怎样炼成的？陈天奇团队FlashInfer打响新年第一枪！

新年第一天，陈天奇团队的FlashInfer论文出炉！块稀疏、可组合、可定制、负载均衡......更快的LLM推理技术细节全公开。

来自主题: AI技术研报

8433 点击 2025-01-24 13:58

上一页当前第6页,共9页下一页