AI资讯新闻榜单内容搜索-Transforme

一个「always」站在大模型技术C位的传奇男子

怎么老是你？？？（How old are you）尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后，有网友发现，其中提到的3-token因果卷积相关内容，沙哥等又早在三年前就有相关研究。这是最近网友不断对着Transformer八子之一的Noam Shazeer（为方便阅读，我们称他为沙哥）发出的灵魂疑问。

来自主题: AI资讯

9081 点击 2025-05-11 15:02

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

这篇论文包含了当前 LLM 的许多要素，十年后的今天或许仍值得一读。

来自主题: AI技术研报

7559 点击 2025-05-02 15:32

上交大等探索键值压缩的边界：MILLION开源框架定义模型量化推理新范式，入选顶会DAC 2025

在以 transformer 模型为基础的大模型中，键值缓存虽然用以存代算的思想显著加速了推理速度，但在长上下文场景中成为了存储瓶颈。为此，本文的研究者提出了 MILLION，一种基于乘积量化的键值缓存压缩和推理加速设计。

来自主题: AI技术研报

8013 点击 2025-04-30 08:32

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

最近，DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型生成很长的推理链（CoT），并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报

5651 点击 2025-04-28 14:09

树莓派上流畅运行大模型！让终端具备自主学习与记忆能力｜对话RockAI CEO刘凡平

他们打造的端侧大模型已经可以在树莓派这样的微型设备上流畅运行，首批搭载Yan架构大模型的具身智能机器人也已经面世。当下AI算力竞赛愈演愈烈之际，他们的“低算力”“群体智能”之路正在获得更多关注。本期「大模型创新架构」主题访谈，量子位邀请到RockAI CEO刘凡平，聊聊他们选择非Transformer架构路线背后的故事，以及通过架构及算法创新实现AGI的技术愿景。

来自主题: AI资讯

8091 点击 2025-04-27 10:14