AI资讯新闻榜单内容搜索-Attention

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Attention

原来Scaling Law还能被优化？Meta这招省token又提效

原来Scaling Law还能被优化？Meta这招省token又提效

原来Scaling Law还能被优化？Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。

来自主题: AI技术研报

7256 点击 2025-07-06 14:56

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

近年来，随着视觉生成模型的发展，视觉生成任务的输入序列长度逐渐增长（高分辨率生成，视频多帧生成，可达到 10K-100K）。

来自主题: AI技术研报

6965 点击 2025-06-30 15:35

深度分析：为什么a16z敢1500万美金押注一个"作弊工具"？Attention is All You Need的AI时代！

深度分析：为什么a16z敢1500万美金押注一个"作弊工具"？Attention is All You Need的AI时代！

深度分析：为什么a16z敢1500万美金押注一个"作弊工具"？Attention is All You Need的AI时代！

你有没有想过，一个因为开发作弊工具被哥伦比亚大学开除的 21 岁学生，竟然能在短短几个月内获得 a16z 领投的 1500 万美元融资？

来自主题: AI资讯

8711 点击 2025-06-29 11:31

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

在高质量视频生成任务中，扩散模型（Diffusion Models）已经成为主流。然而，随着视频长度和分辨率的提升，Diffusion Transformer（DiT）模型中的注意力机制计算量急剧增加，成为推理效率的最大瓶颈。

来自主题: AI技术研报

7625 点击 2025-06-28 16:09

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加，注意力运算（Attention）的时间开销逐渐成为主要开销。

来自主题: AI技术研报

8888 点击 2025-06-19 10:47

AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

越通用，就越World Models。我们知道，大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。

来自主题: AI技术研报

7741 点击 2025-06-14 13:22

Transformer八周年！Attention Is All You Need被引破18万封神

Transformer八周年！Attention Is All You Need被引破18万封神

Transformer八周年！Attention Is All You Need被引破18万封神

Transformer已满8岁，革命性论文《Attention Is All You Need》被引超18万次，掀起生成式AI革命。Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。更重要的是，它让人类真正跨入了生成式AI时代。

来自主题: AI资讯

9597 点击 2025-06-13 14:53

算力终结者来了！华人天团「降维打击」注意力瓶颈，AI狂飙进对数时代

算力终结者来了！华人天团「降维打击」注意力瓶颈，AI狂飙进对数时代

算力终结者来了！华人天团「降维打击」注意力瓶颈，AI狂飙进对数时代

注意力机制的「平方枷锁」，再次被撬开！一招Fenwick树分段，用掩码矩阵，让注意力焕发对数级效率。更厉害的是，它无缝对接线性注意力家族，Mamba-2、DeltaNet 全员提速，跑分全面开花。长序列处理迈入log时代！

来自主题: AI技术研报

9060 点击 2025-06-08 15:27

CVPR 2025 Highlight | 提升自回归模型样例学习能力，Few-shot图像编辑新范式开源

CVPR 2025 Highlight | 提升自回归模型样例学习能力，Few-shot图像编辑新范式开源

CVPR 2025 Highlight | 提升自回归模型样例学习能力，Few-shot图像编辑新范式开源

研究者针对 few-shot 图像编辑提出一个新的自回归模型结构 ——InstaManip，并创新性地提出分组自注意力机制（group self-attention），在此任务上取得了优异的效果。

来自主题: AI技术研报

9511 点击 2025-06-01 13:30

字节最新大模型秘籍：只挑能有推理潜力的数据训练！1.3B模型无需标签自动挑选

字节最新大模型秘籍：只挑能有推理潜力的数据训练！1.3B模型无需标签自动挑选

字节最新大模型秘籍：只挑能有推理潜力的数据训练！1.3B模型无需标签自动挑选

和人工标记数据说拜拜，利用预训练语言模型中的注意力机制就能选择可激发推理能力的训练数据！

来自主题: AI技术研报

7406 点击 2025-05-16 10:07

上一页当前第3页,共7页下一页