刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

8035点击 2026-05-12 09:33

刚刚，DeepSeek融资这件事差不多落定了。

据top华人科创社区消息，此轮由阿里、腾讯和国家大基金各注资 100 亿，加上创始人梁文锋个人的 200 亿组成，公司估值约为 3500 亿人民币。

为稳住团队，DeepSeek 目前的薪酬已经翻倍，核心研究员期权达到 8 位数。

除了融资上的事情备受关注，DeepSeek 还有一个非常值得聊的事情。

API 越用越便宜，缓存命中率高达 98%！

随便打开论坛，都会看到开发者在晒 DeepSeek 的 API 账单，配文都差不多：「这缓存命中率是不是有点太高了？」

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

这命中概率，太离谱了。

而且官方还特意在文档里表示，缓存命中的概率「不是百分之百」。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

去看看它的定价表，就知道这事有多离谱。

DeepSeek-v4-flash，输入Token 没命中缓存的时候收你 1 元/百万。命中缓存了呢，0.02元/百万，直接砍到五十分之一。

v4-pro当前还在 2.5折活动中，未命中3元/百万，命中缓存0.025元/百万，两者差了120倍。

也就是说，大部分用户在使用DeepseekV4时，账单上的数字小得让人有点眩晕。

所以，DeepSeek，你到底怎么做到的？

我们今天就来聊聊这事。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

一、能存进硬盘

在聊这件事之前，得先把「缓存」这件事本身讲清楚。

很多朋友虽然在用，可能都不知道它到底是个啥。

想象你在读一本很厚的小说，边读边在笔记本上记：「这一章谁出场了、谁跟谁闹翻了、主线推进到哪一步了。」

第二天朋友突然问你：「主人公的舅舅最后死了吗？」

你不用把整本书从头翻一遍，直接翻笔记本，几秒钟就能答上来。这种“现成答案直接调用”的情况，就叫「缓存命中」。

放到大模型上，逻辑一模一样。只不过那本“笔记本”里记的不是剧情梗概，而是模型读你输入的文本时，在脑子里算出来的中间状态，学名叫 KV Cache。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

假设你手上有一本5万字的超长小说，你要上传给 AI，然后对它反复提问。

没有KV Cache的情况是：你上传小说，问「这本书的主人公是谁？」AI 逐字逐句啃完5万字，理解内容，好不容易算出答案，耗时巨长。

然后你接着问「他最后结婚了吗？」

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

AI很绝望，因为它得再从头啃一遍5万字，才能回答你第二个问题。每一个新问题都得重复一次酷刑。

有KV Cache的情况完全不一样。你上传完小说后，AI就会把对这部小说的理解笔记存到了草稿纸上。

你接着问第二个问题，AI会先检查草稿纸，只花几秒扫一眼你的新问题，瞬间给出答案。

传统的Transformer模型用的是MHA架构，它们在「思考」每一段内容的时候，都会生成一张巨大的KV Cache。

这张KV Cache有多大？大模型场景下动辄几GB 甚至几十GB。这么大的东西，只能在GPU显存里放着，因为显存的读写带宽可以达到每秒3TB，而固态硬盘只有每秒 7GB，差了400多倍。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

而DeepSeek用的是独特的MLA架构，V4之后更是进一步升级，采用CSA+HCA架构，由压缩稀疏注意力CSA和重度压缩注意力HCA构成，极致压缩token数量，同时又捕获重要且必不可少的信息。

MLA相对于传统MHA就提升显著，更别说V4之后的技术了。两者的区别可以说是一个天上，一个地下，为了方便，我换个生活化的方式给你来解释。

想象一个人正在复习，他的大脑相当于GPU显存，处理速度飞快，但容量有限；而他的书包相当于硬盘，容量大，但翻找起来慢得多。

传统MHA架构，像这个人有强迫症，必须在巨大纸上密密麻麻写下每一个要点，才能继续往下复习。这张纸太大了，大到除了占用你仅有的桌面（显存），哪儿都放不下。

由于显存又贵又有限，这张大纸很快会占满，如果他还想往下复习，只能扔掉旧的纸。下一道题哪怕有重复内容，也得重新写一遍。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

MLA则不一样，他没有强迫症，也不用写满整张大纸，而是把同样的内容浓缩成一张小索引卡，体积压缩到原来的十分之一以上。

索引卡可以放桌面（显存），依然可以处理当下的问题；但更关键的是，复习的知识终于可以塞进书包（硬盘）了，不用直接扔了。

桌面只能放 10 张卡，书包能放几千上万张，容量是成百上千倍的差距。

今天上午做的所有题，都还在书包里，下午再遇到类似题目，直接从书包里掏出来就能继续。而V4升级后的CSA+HCA架构更为复杂，篇幅原因就不过多展开了，放一张图网上找到的总结图：

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

极致压缩技术，让庞大的 KV Cache变得足够「苗条」，从而第一次就能被放进成本极低的硬盘仓库中，长期保存和调用。

正是因为能放在硬盘里了，系统才敢放心地把你几小时甚至几天前的对话都缓存下来。

二、存得久，还不够

但光存得久还不够。

你存的东西，得能在下一次请求来的时候精确地对应上，这样才不会出现偏差。

于是，语言模型的「完整回传」设计，起到了作用。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

每一次，DeepSeek写入硬盘的缓存，都是基于「你的原话 + 完整的思考过程 + 最终回复」这整个序列生成的。

也就是说，它在便利贴上写的索引，是整个一长条的问答。

等你追问新的问题时，你表面上只输入了几个字。但你的Deepseek在背后发送的请求，并不是简单的一句话。

而是第一轮问题 + DeepSeek的完整思考过程 + 上一轮的最终回复 + 你新加的「问题」。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

上一轮的整段思考过程，就完整地嵌在你的请求里，作为「前缀」被送回来了。

然后 DeepSeek 拿这个请求，跟硬盘上的缓存索引做比对。因为开头完全一致，所以你第一轮的所有计算都可以跳过，算力只用来处理你新加的请求。

这样，整个对话就达到了闭环。

「完整回传」是所有 Chat Completion API 的通用做法（OpenAI、Anthropic、Google 都一样，API 本身是无状态的）。

「前缀」缓存命中也是所有主流推理引擎（vLLM、SGLang 等）的通用能力。

但DeepSeek 的真正优势是，缓存能存得很便宜。

好，读到这里，你可能有一个疑问，硬盘不是比显存慢 400 倍吗，那我用的时候怎么没感觉慢？

你说到点子上了。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

硬盘读数据确实比显存慢，但DeepSeek的工程团队做了一件很聪明的事，他们把那点延迟藏在了你本来就有的等待时间里。

你的请求从设备出发，经过路由器，到达服务器，这个过程本身就要花50到100毫秒。在这段时间里，服务器并不是干等着。

它同时跑了两条线。一条线往硬盘发出缓存读取指令，另一条线开始解析协议、分配GPU资源。

等网络传输结束、GPU 资源就绪的时候，硬盘那边的缓存数据也已经到位了。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

而且，这里的“硬盘”并不是传统机械硬盘，实际用的是企业级固态硬盘（SSD），顺序读取速度能达到每秒7GB。

DeepSeek用到的压缩缓存非常小，读完只需要几十微秒，几乎可以忽略不计。

你问「你好吗」这种短句，有缓存还是没缓存，响应时间都在 0.5 到 0.8 秒之间，人类根本感知不到差别。

但到了大场景就不一样了。上传一本 5 万字的小说然后反复追问，有缓存的情况下首字延迟还是 0.5 秒左右。

没缓存？5万字全部重新算一遍，10 到 30 秒起步。

所以你真正能感知到的不是它的慢，而是它的快。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

长文档追问时那种「秒回」的感受，和极低的API费用，才是你体感里真正记住的东西。

而那一点硬盘读取的延迟，被网络延迟和计算准备时间，完美覆盖了。

三、为什么它敢那么便宜

写这篇文章的时候，DeepSeek 已经把所有细节写在了官方文档的「上下文硬盘缓存」章节里，明明白白，没有任何藏着掖着的东西。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

但「看得懂」和「做得到」之间，隔着的是一整套模型架构。

DeepSeek的免费缓存，最长可以存一天。

而Claude 的缓存，本身就是付费功能，Gemini的默认缓存，也就1小时。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

商业层面的原因则更微妙了，它们可能还巴不得你「存不久」。

Claude 的缓存写入，是额外收钱的。你想让它把思考的草稿存下来备用？可以，加钱。5 分钟缓存写入，收你基础输入价格的 125%，溢价 25%。1 小时缓存写入，收你 200%，溢价 100%。

2026 年初，有开发者扒了 Claude 的缓存行为数据。2 月的时候 Claude 一度把缓存 TTL 开到 1 小时，那段时间缓存浪费率只有1.1%。

但到了 3 月，1 小时 TTL 被静默回退到了 5 分钟。浪费率直接飙到25.9%，同一个会话里缓存重建的频率暴增了 5 到 12 倍，用户 Token 消耗原地起飞。

Anthropic 工程师 Jarred Sumner 的解释是：Claude Code 的大部分请求是 one-shot 调用（即一次问答后就结束），5 分钟 TTL 写入更便宜，对多数用户更划算。

但事实到底是什么，就见仁见智了。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

与此同时，还出现了另一层争议。有开发者在博客中称，尝试关掉后台遥测数据收集以保护隐私后，发现缓存瞬间跌回了 5 分钟默认值，仿佛是“用隐私换性能”。

不过，这一观察来自个人技术博客，并非官方确认。

缓存短，对某些厂商而言，并不是技术问题解决不了。

有时候，频繁重建带来的写入费，本身就是一笔收入。

刚刚，DeepSeek融资差不多落定了，首轮500亿！DeepSeek缓存命中率冲到98%？

反过来看 DeepSeek，缓存写入不收额外费用。全自动，默认开启，你甚至不用知道这玩意存在。

系统在后台默默地把你每一次对话的 KV Cache 存进硬盘，几小时前的、昨天的，只要还在缓存窗口内，下一次前缀匹配上了就自动命中。

DeepSeek把缓存从「奢侈品」变成了「日用品」，技术先进，融资也是顺理成章。

文章来自于"JackCui"，作者 "JackCui"。

关键词: AI新闻 , deepseek , deepseek融资 , 人工智能