AI资讯新闻榜单内容搜索-推理成本

国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家

杭州速度，这个词组的含金量还在上升。

来自主题: AI资讯

9279 点击 2026-04-24 09:42

Transformer可以改装成Mamba了：苹果把推理成本直接打成线性

最近，苹果又整了个活儿，很工程、也挺关键：把又贵又强的 Transformer，改造成又便宜又差不多强的 Mamba。而且，性能基本没怎么掉。

来自主题: AI技术研报

8176 点击 2026-04-23 14:46

10秒视频token超5万，O(n²)跑不动？用后训练线性化框架实现1.71倍加速，推理成本大降｜CVPR'2026

视频生成进入大规模时代，但计算成本也炸了。

来自主题: AI技术研报

6349 点击 2026-03-10 14:32

腾讯AngelSlim升级，首个集LLM、VLM及语音多模态为一体的投机采样训练框架，推理速度飙升1.8倍

随着大模型步入规模化应用深水区，日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下，从量化、剪枝到模型蒸馏，各类压缩技术竞相涌现，但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报

10626 点击 2026-01-19 08:54

黄仁勋CES放出大杀器：下一代Rubin架构推理成本降10倍

「每隔 10 到 15 年，计算行业就会革新一次，每次都会催生出新形态的平台。现在，有两个转变在同时进行：应用将会构建于 AI 之上，你构建软件的方式也将改变。」

来自主题: AI资讯

9280 点击 2026-01-06 10:18

检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

在检索增强生成中，扩大生成模型规模往往能提升准确率，但也会显著抬高推理成本与部署门槛。CMU 团队在固定提示模板、上下文组织方式与证据预算，并保持检索与解码设置不变的前提下，系统比较了生成模型规模与检索语料规模的联合效应，发现扩充检索语料能够稳定增强 RAG，并在多项开放域问答基准上让小中型模型在更大语料下达到甚至超过更大模型在较小语料下的表现，同时在更高语料规模处呈现清晰的边际收益递减。

来自主题: AI技术研报

8269 点击 2026-01-06 09:30

OpenAI的2026：要么封神，要么破产

2026 年将是 OpenAI 的生死赛点。面对预计 170 亿美元的惊人现金黑洞和谷歌 Gemini 的凶猛反扑，奥特曼被迫启动「红色代码」。一边是史无前例的千亿融资计划，一边是推理成本倒挂的财务危机，这究竟是通往 AGI 的必经之路，还是硅谷最大的泡沫破裂前夜？

来自主题: AI资讯

8262 点击 2026-01-04 11:33

为MoE解绑：全新「专家即服务」推理架构发布，超细粒度扩展锐减37.5%成本

近年来，大型语言模型的参数规模屡创新高，随之而来的推理开销也呈指数级增长。如何降低超大模型的推理成本，成为业界关注的焦点之一。Mixture-of-Experts (MoE，混合专家) 架构通过引入大量 “专家” 子模型，让每个输入仅激活少数专家，从而在参数规模激增的同时避免推理计算量同比增长。

来自主题: AI技术研报

9054 点击 2025-10-13 15:49

算力成本大降！马尔可夫思考机来了，LLM推理成本直接降为线性

Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径，提出了一个不同的问题：如果环境从一开始就不会造成计算量的二次级增长呢？他们提出了一种新的范式，其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机（Markovian Thinker)。

来自主题: AI技术研报

9550 点击 2025-10-11 11:31

Flash Attention作者最新播客：英伟达GPU统治三年内将终结

英伟达还能“猖狂”多久？——不出三年！实现AGI需要新的架构吗？——不用，Transformer足矣！ “近几年推理成本下降了100倍，未来还有望再降低10倍！” 这些“暴论”，出自Flash Attention的作者——Tri Dao。

来自主题: AI资讯

9082 点击 2025-09-29 22:06