
不给呼兰“留活路”的DeepSeek,如何重塑技术信仰?|牛白丁
不给呼兰“留活路”的DeepSeek,如何重塑技术信仰?|牛白丁大家好,这里是华创资本的播客节目「牛白丁」,我是 Vivienne 晓雯。好久不见的 AGI 系列来填坑了,这一期我们请到了好朋友橘子,聊聊最近爆火的被称之为“东方神秘力量”的DeepSeek。
大家好,这里是华创资本的播客节目「牛白丁」,我是 Vivienne 晓雯。好久不见的 AGI 系列来填坑了,这一期我们请到了好朋友橘子,聊聊最近爆火的被称之为“东方神秘力量”的DeepSeek。
随着 DeepSeek 问世,从春节至今,和AI有关的资讯与讨论已经让人有些疲劳。然而,相关讨论大都聚焦在产业、投资和技术方面,其中不乏优质信息,但仍缺少一个重要的视角——作为普通用户,我们如何看待并使用AI。
满血版DeepSeek R1部署A100,基于INT8量化,相比BF16实现50%吞吐提升! 美团搜推机器学习团队最新开源,实现对DeepSeek R1模型基本无损的INT8精度量化。
通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!
DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%! 名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。
就在昨天,全国产算力训出的讯飞星火X1全面升级!70B小身板在数学领域全面领先,性能直接对标OpenAI o1和DeepSeek-R1。单机部署成本骤降,彻底颠覆行业应用门槛。
给DeepSeek-R1推理指导,它的数学推理能力就开始暴涨。更令人吃惊是,Qwen2.5-14B居然给出了此前从未见过的希尔伯特问题的反例!而人类为此耗费了27年。研究者预言:LLM离破解NP-hard问题,已经又近了一步。
在 DeepSeek 生成的文本中,有 74.2% 的文本在风格上与 OpenAI 模型具有惊人的相似性?这是一项新研究得出的结论。这项研究来自 Copyleaks—— 一个专注于检测文本中的抄袭和 AI 生成内容的平台。
本文介绍了英特尔®至强®处理器在AI推理领域的优势,如何使用一键部署的镜像进行纯CPU环境下基于AMX加速后的DeepSeek-R1 7B蒸馏模型推理,以及纯CPU环境下部署DeepSeek-R1 671B满血版模型实践。
所以作为一名AI爱好者,我整理了这份指南,希望能帮助刚接触AI的朋友们少走弯路,找到最适合自己的工具。需要说明的是,大多数AI产品在功能上其实有不少重叠。我在分类时主要考虑的是它们的核心优势和特长。比如DeepSeek虽然也是一款不错的AI对话工具,但我认为它在写作方面的表现最为出色,因此将它归入了AI写作工具类别。