AI资讯新闻榜单内容搜索-内存

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式，推理速度比前SOTA提升4.7倍！大模型处理长序列时，KV cache的内存占用随序列长度线性增长，已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报

6000 点击 2025-10-22 14:52

微软BitDistill将LLM压缩到1.58比特：10倍内存节省、2.65倍CPU推理加速

大语言模型（LLM）不仅在推动通用自然语言处理方面发挥了关键作用，更重要的是，它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性，但在下游任务中高效部署仍面临重大挑战。

来自主题: AI技术研报

5876 点击 2025-10-21 11:43

1.58bit不输FP16！微软推出全新模型蒸馏框架，作者全是华人

1.58bit量化，内存仅需1/10，但表现不输FP16？微软最新推出的蒸馏框架BitNet Distillation（简称BitDistill），实现了几乎无性能损失的模型量化。

来自主题: AI技术研报

5502 点击 2025-10-20 14:35

英伟达AI超算3999开售，「掌心之中」可部署所有大参数开源模型！

英伟达面向个人的AI超算DGX Spark已上市！128GB统一内存（常规系统内存+GPU显存），加上允许将两台DGX Spark连起来，直接可以跑起来405B的大模型（FP4精度），而这已经逼近目前开源的最大模型！如此恐怖的实力却格外安静优雅，大小与Mac mini相仿，3999美元带回家！

来自主题: AI资讯

8932 点击 2025-10-14 22:34

AI内存新秀，SOCAMM2登场

据报道，英伟达已取消其第一代SOCAMM内存模块的推广，并将开发重点转向名为SOCAMM2的新版本。不久前，英伟达曾表示计划今年为其AI产品部署60-80万个SOCAMM内存模块，但据称随后发现了技术问题，项目两次搁置，并未能下达任何实际的大规模订单。目前开发重点已经转移到SOCAMM 2，英伟达已开始与三星电子、SK海力士和美光合作对SOCAMM 2进行样品测试。

来自主题: AI资讯

6035 点击 2025-10-06 14:07