AI资讯新闻榜单内容搜索-Transforme

一封来自Transformer之父的分手信：8年了！世界需要新的AI架构

Transformer之父「叛逃」？8年前掀起AI革命的男人，如今嫌「自己孩子」太吵太卷！当资本狂飙、论文堆积如山，他却高喊：是时候放弃Transformer，重新找回好奇心了。

来自主题: AI资讯

8937 点击 2025-10-25 13:22

比Transformer更强的架构来了？浙大新作Translution，一统卷积和自注意力

近日，范鹤鹤（浙江大学）、杨易（浙江大学）、Mohan Kankanhalli（新加坡国立大学）和吴飞（浙江大学）四位老师提出了一种具有划时代意义的神经网络基础操作——Translution。该研究认为，神经网络对某种类型数据建模的本质是：

来自主题: AI技术研报

8002 点击 2025-10-23 10:59

苹果AI选Mamba：Agent任务比Transformer更好

都说苹果AI慢半拍，没想到新研究直接在Transformer头上动土。（doge）「Mamba+工具」，在Agent场景更能打！

来自主题: AI技术研报

7230 点击 2025-10-21 15:48

Karpathy泼冷水：AGI要等10年！根本没有「智能体元年」

在近日的一次访谈中，Andrej Karpathy深入探讨了AGI、智能体与AI未来十年的走向。他认为当前的「智能体」仍处早期阶段，强化学习虽不完美，却是目前的最优解。他预测未来10年的AI架构仍然可能是类似Transformer的巨大神经网络。

来自主题: AI资讯

6982 点击 2025-10-19 12:48

稳定训练、数据高效，清华大学提出「流策略」强化学习新方法SAC Flow

本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案，可以端到端优化真实的流策略，而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN，再用 GRU 门控和 Transformer Decoder 两套速度参数化。

来自主题: AI技术研报

6819 点击 2025-10-19 11:48

谷歌开源全栈平台Coral NPU，能让大模型在手表上全天候运行

他们又推出了 Coral NPU，可用于构建在低功率设备上持续运行的 AI。具体来说，其可在可穿戴设备上运行小型 Transformer 模型和 LLM，并可通过 IREE 和 TFLM 编译器支持 TensorFlow、JAX 和 PyTorch。

来自主题: AI资讯

9958 点击 2025-10-17 08:38

NeurIPS 2025 Spotlight | 条件表征学习：一步对齐表征与准则

一张图片包含的信息是多维的。例如下面的图 1，我们至少可以得到三个层面的信息：主体是大象，数量有两头，环境是热带稀树草原（savanna）。然而，如果由传统的表征学习方法来处理这张图片，比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer，往往得到的表征只会体现其主体信息，也就是会简单地将该图片归为大象这一类别。这显然是不合理的。

来自主题: AI技术研报

6478 点击 2025-10-16 14:43

ICCV 2025 | FDAM：告别模糊视界，源自电路理论的即插即用方法让视觉Transformer重获高清细节

针对视觉 Transformer（ViT）因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题，我们提出了一种即插即用、受电路理论启发的频率动态注意力调制（FDAM）模块。它通过巧妙地 “反转” 注意力以生成高频补偿，并对特征频谱进行动态缩放，最终在几乎不增加计算成本的情况下，大幅提升了模型在分割、检测等密集预测任务上的性能，并取得了 SOTA 效果。

来自主题: AI技术研报

5949 点击 2025-10-16 14:35

谢赛宁新作：VAE退役，RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束，RAE将接力前行。其中表征自编码器RAE（Representation Autoencoders）是一种用于扩散Transformer（DiT）训练的新型自动编码器，其核心设计是用预训练的表征编码器（如DINO、SigLIP、MAE 等）与训练后的轻量级解码器配对，从而替代传统扩散模型中依赖的VAE（变分自动编码器）。

来自主题: AI技术研报

7002 点击 2025-10-14 16:34

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

为此，北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置：先在纯自监督、无 language condition 的设定下，把图像离散化并「分词」，再与文本在同一词表、同一序列中由同一 Transformer 统一建模，从源头缩短跨模态链路并保留视觉结构先验。

来自主题: AI技术研报

7006 点击 2025-10-14 09:58