
不给呼兰“留活路”的DeepSeek,如何重塑技术信仰?|牛白丁
不给呼兰“留活路”的DeepSeek,如何重塑技术信仰?|牛白丁大家好,这里是华创资本的播客节目「牛白丁」,我是 Vivienne 晓雯。好久不见的 AGI 系列来填坑了,这一期我们请到了好朋友橘子,聊聊最近爆火的被称之为“东方神秘力量”的DeepSeek。
大家好,这里是华创资本的播客节目「牛白丁」,我是 Vivienne 晓雯。好久不见的 AGI 系列来填坑了,这一期我们请到了好朋友橘子,聊聊最近爆火的被称之为“东方神秘力量”的DeepSeek。
随着 DeepSeek 问世,从春节至今,和AI有关的资讯与讨论已经让人有些疲劳。然而,相关讨论大都聚焦在产业、投资和技术方面,其中不乏优质信息,但仍缺少一个重要的视角——作为普通用户,我们如何看待并使用AI。
刚刚,Claude背后公司Anthropic官宣新一轮融资: 35亿美元!投后估值达到615亿。 在Clauede-3.7发布后,此轮新融资便浮出水面,并在今天正式公布。
满血版DeepSeek R1部署A100,基于INT8量化,相比BF16实现50%吞吐提升! 美团搜推机器学习团队最新开源,实现对DeepSeek R1模型基本无损的INT8精度量化。
一年一度,今年的世界移动通信大会(MWC)如期在巴塞罗那开展。 不出所料,巴展无处不AI。 连没有前来参会的DeepSeek也有被cue到。
通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!
DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%! 名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。
就在昨天,全国产算力训出的讯飞星火X1全面升级!70B小身板在数学领域全面领先,性能直接对标OpenAI o1和DeepSeek-R1。单机部署成本骤降,彻底颠覆行业应用门槛。
给DeepSeek-R1推理指导,它的数学推理能力就开始暴涨。更令人吃惊是,Qwen2.5-14B居然给出了此前从未见过的希尔伯特问题的反例!而人类为此耗费了27年。研究者预言:LLM离破解NP-hard问题,已经又近了一步。
上周DeepSeek连续5天开源硬核技术,阿里开源万相2.1,Qwen的推理模型推出预览版,但是肯定马上也要开源。而今天,智谱这个曾经的开源之光,在昨天官宣拿了杭州10亿融资之后,在官宣文章里如此写道: