AI资讯新闻榜单内容搜索-内存

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 内存
美国防部拨款1860万美元:存算一体端侧AI推理芯片!

美国防部拨款1860万美元:存算一体端侧AI推理芯片!

美国防部拨款1860万美元:存算一体端侧AI推理芯片!

由普林斯顿大学教授共同创立的一家AI初创公司获得了1860万美元的国防部拨款,用于开发一种内存芯片,该芯片旨在提供更快、更高效的AI推理处理。

来自主题: AI资讯
7185 点击    2025-01-08 10:43
英伟达RTX5090规格曝光,自带32GB GDDR7内存

英伟达RTX5090规格曝光,自带32GB GDDR7内存

英伟达RTX5090规格曝光,自带32GB GDDR7内存

上周末,外媒 VideoCardz 获得了一张非公版 RTX 5090 的包装盒照片,实锤了新一代旗舰显卡将使用 32GB GDDR7 显存。

来自主题: AI资讯
6973 点击    2025-01-06 15:10
把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

CPU+GPU,模型KV缓存压力被缓解了。 来自CMU、华盛顿大学、Meta AI的研究人员提出MagicPIG,通过在CPU上使用LSH(局部敏感哈希)采样技术,有效克服了GPU内存容量限制的问题。

来自主题: AI技术研报
7036 点击    2024-12-28 11:38
抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

北京大学等研究团队优化了Sdcpp框架,通过引入Winograd算法和多项策略,显著提升了图像生成速度和内存效率,最高可提速4.79倍。

来自主题: AI技术研报
6898 点击    2024-12-21 11:34
清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高,机器人使用多模态模型的障碍被解决了! 来自清华大学的研究者们设计了DeeR-VLA框架,一种适用于VLA的“动态推理”框架,能将LLM部分的相关计算、内存开销平均降低4-6倍。

来自主题: AI技术研报
6248 点击    2024-11-30 16:29
美芯片新禁令下周出台,100+公司或列入实体清单!

美芯片新禁令下周出台,100+公司或列入实体清单!

美芯片新禁令下周出台,100+公司或列入实体清单!

拜登政府下台之前,还要公布一项限制芯片出口的新举措。据称,新规重点放在了对特定中国实体,以及100多家芯片制造设备研发公司的出口限制。另外,还会新增一些高带宽内存(HBM)条款。

来自主题: AI资讯
9392 点击    2024-11-29 12:26
它来了,剑桥最新LLM提示词压缩调查报告

它来了,剑桥最新LLM提示词压缩调查报告

它来了,剑桥最新LLM提示词压缩调查报告

别说Prompt压缩不重要,你可以不在乎Token成本,但总要考虑内存和LLM响应时间吧?一个显著的问题逐渐浮出水面:随着任务复杂度增加,提示词(Prompt)往往需要变得更长,以容纳更多详细需求、上下文信息和示例。这不仅降低了推理速度,还会增加内存开销,影响用户体验。

来自主题: AI资讯
8802 点击    2024-10-29 12:28
7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

Zamba2-7B是一款小型语言模型,在保持输出质量的同时,通过创新架构实现了比同类模型更快的推理速度和更低的内存占用,在图像描述等任务上表现出色,能在各种边缘设备和消费级GPU上高效运行。

来自主题: AI技术研报
4093 点击    2024-10-25 11:06
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

TL;DR:DuoAttention 通过将大语言模型的注意力头分为检索头(Retrieval Heads,需要完整 KV 缓存)和流式头(Streaming Heads,只需固定量 KV 缓存),大幅提升了长上下文推理的效率,显著减少内存消耗、同时提高解码(Decoding)和预填充(Pre-filling)速度,同时在长短上下文任务中保持了准确率。

来自主题: AI技术研报
3484 点击    2024-10-24 11:33