AI资讯新闻榜单内容搜索-transforme

超越Claude Mythos和GPT-5.5！斯坦福Agent验证框架拿下SOTA，Transformer作者转发

Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架，该方法是一种通用的验证机制，可与任意Agent Harness和模型结合。

来自主题: AI技术研报

8470 点击 2026-04-27 15:18

谷歌再发「香蕉」！何恺明等引爆视觉Transformer时刻

最近，谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser，正式发布了Vision Banana。它向世界宣告：视觉AI终于不再需要那些臃肿的任务头了，理解，本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报

9337 点击 2026-04-24 16:13

首篇「Attention Sink」综述：从利用、理解到消除，Transformer中的注意力「汇聚」全景解析

几乎所有 Transformer 都在做一件反常的事：把大量注意力集中到少数几个特定 Token 上。这不是 bug，而是 Transformer 固有的「注意力汇聚」（Attention Sink）。首篇系统性综述，带你从利用、理解到消除，全面掌握这一核心现象。

来自主题: AI技术研报

8725 点击 2026-04-24 09:14

GPT-5.5，刚刚泄露了

就在刚刚，Codex平台爆发重大泄漏事故，内部测试环境疑似误推生产环境。GPT-5.5、「风速狗」Arcanine、「海森堡」以及神秘的Glacier集体亮相。奥特曼口中那个「比Transformer更伟大的架构」，难道已经藏在这些模型背后？

来自主题: AI资讯

8619 点击 2026-04-23 15:26

Transformer可以改装成Mamba了：苹果把推理成本直接打成线性

最近，苹果又整了个活儿，很工程、也挺关键：把又贵又强的 Transformer，改造成又便宜又差不多强的 Mamba。而且，性能基本没怎么掉。

来自主题: AI技术研报

8325 点击 2026-04-23 14:46

在一台1970年代的PDP-11上训练Transformer需要多久？答案是5.5分钟

试想一下，如果把当下大火的大模型技术带回 1970 年，会发生什么？

来自主题: AI技术研报

8764 点击 2026-04-14 15:45

别再用黑盒预测了！即插即用模块通过前置分解让iTransformer/PatchTST既准又可解释

在时间序列预测领域，深度模型如iTransformer、PatchTST虽然性能强劲，却长期困于“黑盒”困境——预测准，但说不出为什么。

来自主题: AI技术研报

7531 点击 2026-04-02 16:23

搞懂“记忆”必看｜吃透Engram，坐等Deepseek新模型

第一篇论文来自字节SEED团队，打了一些基础；《Over-Tokenized Transformer》。论文标题看上去在讨论“过度分词”。而重点必然是在第二篇上—— DeepSeek公司的学术成果Engram。《Conditional Memory via Scalable Lookup》也就是Engram模块所出处的论文。

来自主题: AI技术研报

10140 点击 2026-03-31 10:30

早于DeepSeek Engram！用「查表」重置Transformer记忆 | ICLR

ICLR论文STEM架构率先提出「查表式记忆」架构，早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表，用token索引的embedding表直接读取记忆，彻底解耦记忆容量与计算开销。

来自主题: AI技术研报

8461 点击 2026-03-31 10:04

华人学生立大功！新王Mamba-3直击Transformer死穴，推理效率碾压7倍

Transformer不保？今天，CMU普林斯顿原班人马杀回，新一代开源架构Mamba-3震撼降临。15亿参数战力爆表，性能比Transformer飙升4%。

来自主题: AI技术研报

8884 点击 2026-03-19 17:36