AI资讯新闻榜单内容搜索-transforme

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: transforme
ICML 2026 | 计算所联合ETH研究者提出WorldCache,视频世界模型近似无损提速3.7 倍

ICML 2026 | 计算所联合ETH研究者提出WorldCache,视频世界模型近似无损提速3.7 倍

ICML 2026 | 计算所联合ETH研究者提出WorldCache,视频世界模型近似无损提速3.7 倍

如果说扩散世界模型的瓶颈,是每一步去噪都要把同一个大 Transformer 再跑一遍,那么 WorldCache 的思路就是:不要再把所有 Token、所有时间步都当成同一件事。这篇工作把 “哪些内容适合缓存”和“哪些时刻必须重算” 拆开处理,在不重新训练模型、几乎不增加额外显存的前提下,把缓存真正做成了一套更贴合世界模型结构的推理策略。

来自主题: AI技术研报
6839 点击    2026-06-03 10:02
统治AI十年的Transformer,要被亲爹亲手砸碎?

统治AI十年的Transformer,要被亲爹亲手砸碎?

统治AI十年的Transformer,要被亲爹亲手砸碎?

80分钟的拳击式辩论!Transformer联合发明人亲自下场为自己的作品辩护,对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。统治AI黄金十年的架构,地基是不是已经松了?

来自主题: AI资讯
5414 点击    2026-05-27 16:30
VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、统一理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。

来自主题: AI技术研报
7410 点击    2026-05-26 10:26
还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

5 月 22 日,Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道:「经过一些数学重写,结果发现 Transformer 的所有内容都是一系列 GEMM + epilogue(矩阵乘法加尾声)。给定一些优化的原语,LLM(以及新手)就可以为所有 Transformer 操作编写光速内核!」

来自主题: AI技术研报
8538 点击    2026-05-25 10:13
智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型,不仅在多个基准测试中刷新 SOTA 纪录,也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。

来自主题: AI资讯
8521 点击    2026-05-25 09:49
ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

ICML 2026 | 打破「回音室」效应!人大孟澄团队&华为提出集成剪枝视角下的MoE新架构

近年来,Mixture-of-Experts(MoE)已经成为大模型扩展的重要架构之一。相比稠密 Transformer,MoE 通过稀疏激活机制,在每个 token 上只调用少量专家,从而在控制计算成本的同时扩大模型容量。然而,一个长期存在的问题是:专家越多,并不意味着专家真的学得越 “专”。

来自主题: AI技术研报
7699 点击    2026-05-23 09:56
20岁写出Transformer的人,真开源2180亿大模型Command A+

20岁写出Transformer的人,真开源2180亿大模型Command A+

20岁写出Transformer的人,真开源2180亿大模型Command A+

刚刚,Cohere放出2180亿参数的MoE大模型Command A+,单张B200可跑,支持48种语言,还带原生引用能力。但这次发布最炸的,不在参数表上,而在那一个许可证:Apache 2.0。

来自主题: AI资讯
8799 点击    2026-05-22 16:01
CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的 Transformer 模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。因此,研究者们一直在探索具有线性计算复杂度的高效序列建模方法。

来自主题: AI技术研报
5698 点击    2026-05-18 15:30
13人干翻Transformer!新架构SSA算力暴减千倍,成本仅Opus 5%

13人干翻Transformer!新架构SSA算力暴减千倍,成本仅Opus 5%

13人干翻Transformer!新架构SSA算力暴减千倍,成本仅Opus 5%

Transformer统治地位悬了!一款SubQ模型带着SAA架构横空出世,1200万上下文成本仅Opus的5%,计算量暴减千倍。

来自主题: AI资讯
9738 点击    2026-05-07 10:59