AI资讯新闻榜单内容搜索-推理成本

Flash Attention作者最新播客：英伟达GPU统治三年内将终结

英伟达还能“猖狂”多久？——不出三年！实现AGI需要新的架构吗？——不用，Transformer足矣！ “近几年推理成本下降了100倍，未来还有望再降低10倍！” 这些“暴论”，出自Flash Attention的作者——Tri Dao。

来自主题: AI资讯

9221 点击 2025-09-29 22:06

从零到40亿次生成：揭秘获得顶级VC青睐的AI基础设施独角兽

刚刚完成1300万美元种子轮融资的Runware，正在用一种完全不同的方式重新定义AI基础设施。他们不依赖现成的云服务提供商，而是从零开始构建了自己的硬件和软件栈，创造出了所谓的"Sonic推理引擎"。这种垂直整合的方法让他们能够将AI推理成本降低高达90%，同时通过单一API提供对超过40万个AI模型的访问。

来自主题: AI资讯

9743 点击 2025-09-25 15:59

将KV Cache预算降至1.5%！他们用进化算法把大模型内存占用砍下来了

只用 1.5% 的内存预算，性能就能超越使用完整 KV cache 的模型，这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

来自主题: AI技术研报

8134 点击 2025-09-15 08:33

双“雷”暴击！Trae 被曝资源黑洞、Claude背刺超级付费党，开发者们被“刀”惨了

主打“自动化执行、多模型调用、上下文记忆”的 AI 编程应用大热，但运行卡顿、资源消耗惊人、推理成本过高等问题也随之而来。

来自主题: AI资讯

8443 点击 2025-08-03 13:43

抖音全新推荐大模型RankMixer，参数翻70倍，推理成本不涨

你刷的每一条短视频，背后都隐藏着推荐算法的迭代与革新。作为最新成果，字节跳动的算法团队提出的全新推荐排序模型架构RankMixer，在兼顾算力利用率的同时，实现了模型效果的可扩展性。

来自主题: AI资讯

9590 点击 2025-08-02 13:45

大模型「越用越快」！SpeedupLLM首次验证，大降56%推理预算

LLM用得越久，速度越快！Emory大学提出SpeedupLLM框架，利用动态计算资源分配和记忆机制，使LLM在处理相似任务时推理成本降低56%，准确率提升，为AI模型发展提供新思路。

来自主题: AI技术研报

6583 点击 2025-07-10 12:30

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报

8317 点击 2025-07-05 19:00

5%参数比肩DeepSeek满血R1！北大“小”模型靠分合蒸馏，打破推理成本下限

只用5%的参数，数学和代码能力竟然超越满血DeepSeek？

来自主题: AI资讯

9827 点击 2025-05-27 12:45

52页PPT，谷歌Gemini预训练负责人首次揭秘！扩展定律最优解

大模型之战烽火正酣，谷歌Gemini 2.5 Pro却强势逆袭！Gemini Flash预训练负责人亲自揭秘，深挖Gemini预训练的关键技术，看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。

来自主题: AI技术研报

9553 点击 2025-04-29 09:43

亚马逊CEO贾西力挺AI千亿投资：非投不可，否则会被淘汰

亚马逊今年的资本支出达1000亿美元，大部分用于与AI相关项目。亚马逊内部正开发1000多种生成式AI应用，涵盖编程、搜索、购物等领域。美国当地时间周四，亚马逊CEO安迪·贾西发布了2024年度致股东信。他在信中预测，尽管许多公司正“大举”投资AI，但随着技术进步和芯片市场竞争加剧，AI的使用成本最终将会下降，而推理成本将占大头。

来自主题: AI资讯

10001 点击 2025-04-12 09:51