
DeepSeek的MLA,任意大模型都能轻松迁移了
DeepSeek的MLA,任意大模型都能轻松迁移了DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。
DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。
DeepSeek现身香港?
编辑注:今天上线的Manus引发了全网的 Agent 热潮,Manus 背后的产品团队——Monica.im 的产品团队也引起了大家的关注。Manus产品负责人张涛在 2 月份曾经有过一次公开分享,解读 DeepSeek R1 成功背后的技术进步和产品思路,从中可以一窥 Manus 的部分解题思路。
又一个「DeepSeek 王炸组合」,来了。2 月 28 日,两个国民级应用,百度文库和百度网盘,全量接入了 DeepSeek-R1 满血版。
国内AI智能助手APP迎来翻倍增长的爆发式第二春,月新增下载超8000万,日均DAU超过4500万。
据消息报道,Meta Platforms 准备发展并运行AI聊天机器人,以吸引Messenger 和 WhatsApp 等企业。作为拥挤市场中的新来者,Meta 将其商业 AI 聊天机器人定位为提供客户支持、信息和推荐,以促进销售的工具。
由UCLA等机构共同组建的研究团队,全球首次在20亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」!就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!
「某某公司租的机器狗,都累没电趴窝了。」
DeepSeek R1 催化了 reasoning model 的竞争:在过去的一个月里,头部 AI labs 已经发布了三个 SOTA reasoning models:OpenAI 的 o3-mini 和deep research, xAI 的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet。
新学期刚开学的一次家庭聚餐上,五年级小学生林朵听大人们讨论用DeepSeek“算命”,她既不懂算命,也没听明白DeepSeek是哪两个单词,但还是当场问爸爸要来手机,向那个画着鲸鱼的APP虔诚提问:“您好,请预测我下一次考试的分数。”