AI资讯新闻榜单内容搜索-内存

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 内存

ICML25|标点符号竟是LLM记忆核心！正确处理性能暴涨

ICML25|标点符号竟是LLM记忆核心！正确处理性能暴涨

ICML25|标点符号竟是LLM记忆核心！正确处理性能暴涨

近年来，大语言模型（LLM）的能力越来越强，但它们的“饭量”也越来越大。这个“饭量”主要体现在计算和内存上。当模型处理的文本越来越长时，一个叫做“自注意力（Self-Attention）”的核心机制会导致计算量呈平方级增长。这就像一个房间里的人开会，如果每个人都要和在场的其他所有人单独聊一遍，那么随着人数增加，总的对话次数会爆炸式增长。

来自主题: AI技术研报

6963 点击 2025-07-29 12:29

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

大型语言模型已展现出卓越的能力，但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别，训练和推理的成本变得高昂，阻碍了其在许多实际应用中的推广与落地。

来自主题: AI技术研报

7012 点击 2025-07-18 11:58

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

Transformer杀手来了？KAIST、谷歌DeepMind等机构刚刚发布的MoR架构，推理速度翻倍、内存减半，直接重塑了LLM的性能边界，全面碾压了传统的Transformer。网友们直呼炸裂：又一个改变游戏规则的炸弹来了。

来自主题: AI技术研报

8940 点击 2025-07-17 17:00

MIRIX重塑AI多模态长期记忆：超Gemini 410%，节省99.9%内存，APP同步上线

MIRIX重塑AI多模态长期记忆：超Gemini 410%，节省99.9%内存，APP同步上线

MIRIX重塑AI多模态长期记忆：超Gemini 410%，节省99.9%内存，APP同步上线

MIRIX，一个由 UCSD 和 NYU 团队主导的新系统，正在重新定义 AI 的记忆格局。

来自主题: AI技术研报

7993 点击 2025-07-16 10:25

Jina Embeddings v4 的量化感知训练

Jina Embeddings v4 的量化感知训练

Jina Embeddings v4 的量化感知训练

在 AI 领域，我们对模型的期待总是既要、又要、还要：模型要强，速度要快，成本还要低。但实际应用时，高质量的向量表征往往意味着庞大的数据体积，既拖慢检索速度，也推高存储和内存消耗。

来自主题: AI技术研报

10420 点击 2025-07-10 11:05

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

当地时间 6 月 26 日，在上个月的 Google I/O 上首次亮相预览后，谷歌如今正式发布了 Gemma 3n 完整版，可以直接在本地硬件上运行。

来自主题: AI资讯

7736 点击 2025-06-27 15:21

谷歌开源Gemma 3n：2G内存就能跑，100亿参数内最强多模态模型

谷歌开源Gemma 3n：2G内存就能跑，100亿参数内最强多模态模型

谷歌开源Gemma 3n：2G内存就能跑，100亿参数内最强多模态模型

本周五凌晨，谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。谷歌表示，Gemma 3n 代表了设备端 AI 的重大进步，它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能，其性能去年还只能在云端先进模型上才能体验。

来自主题: AI资讯

9667 点击 2025-06-27 09:00

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。近期，诸如「长思维链」等技术的兴起，带来了需要模型生成数万个 token 的全新工作负载。

来自主题: AI技术研报

9730 点击 2025-06-25 10:51

3D高斯泼溅，可输入视图量高达500！推理速度提升3倍，内存少80%

3D高斯泼溅，可输入视图量高达500！推理速度提升3倍，内存少80%

3D高斯泼溅，可输入视图量高达500！推理速度提升3倍，内存少80%

ZPressor能高效压缩3D高斯泼溅（3DGS）模型的多视图输入，解决其在处理密集视图时的性能瓶颈，提升渲染效率和质量。

来自主题: AI技术研报

9260 点击 2025-06-18 10:50

昇腾+鲲鹏联手上大招！华为爆改MoE训练，吞吐再飙升20%，内存省70%

昇腾+鲲鹏联手上大招！华为爆改MoE训练，吞吐再飙升20%，内存省70%

昇腾+鲲鹏联手上大招！华为爆改MoE训练，吞吐再飙升20%，内存省70%

最近，华为在MoE训练系统方面，给出了MoE训练算子和内存优化新方案：三大核心算子全面提速，系统吞吐再提20%，Selective R/S实现内存节省70%。

来自主题: AI技术研报

7633 点击 2025-06-04 15:17

上一页当前第3页,共10页下一页