智谱从 DeepSeek老家杭州融了一大笔钱
智谱从 DeepSeek老家杭州融了一大笔钱3月3日,智谱公布了最新一轮融资:本轮战略融资金额超10亿元人民币,参与投资方包括杭州城投产业基金、上城资本等。智谱称:此次融资旨在推动智谱国产基座GLM大模型的技术创新和生态发展。
3月3日,智谱公布了最新一轮融资:本轮战略融资金额超10亿元人民币,参与投资方包括杭州城投产业基金、上城资本等。智谱称:此次融资旨在推动智谱国产基座GLM大模型的技术创新和生态发展。
AI如何理解物理世界?视频联合嵌入预测架构V-JEPA带来新突破,无需硬编码核心知识,在自监督预训练中展现出对直观物理的理解,超越了基于像素的预测模型和多模态LLM。
GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 成功的基础技术之一,我们之前也多次报道过该技术,比如《DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法》。
近年来,大型语言模型(LLMs)在代码相关的任务上展现了惊人的表现,各种代码大模型层出不穷。这些成功的案例表明,在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。
原来,大型推理模型(Large Reasoning Model,LRM)像人一样,在「用脑过度」也会崩溃,进而行动能力下降。
Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。
大概从三四个小时前开始,两家大模型公司潞晨科技创始人尤洋和硅基流动创始人袁进辉,在社交平台公开互怼。先是尤洋在知乎对袁进辉发难,发文《坑人的硅基流动》,尤洋称本来不想发这些东西,但是硅基流动的袁进辉老师频繁在朋友圈里阴阳他。"这家公司疑似组织水军在网上长期黑我。今天DeepSeek有一篇文章指向我,他也在那里煽风点火。"
3月1日,潞晨科技官微发布了两则消息。先是宣布:“尊敬的用户,潞晨云将在一周后停止提供DeepSeek API服务,请尽快用完您的余额。如果没用完,我们全额退款。”后又发布消息:“感谢网友的热心提醒,Colossal-AI此前发布对DeepSeek-R1(671B)模型的LoRA微调,在参数加载过程中因参数名称不匹配的Bug导致Loss异常,已在GitHub线上修复。”
2025年开年,全球AI战场硝烟弥漫。 ChatGPT悄然迭代至GPT-6,在DeepSeek横空出世、在多领域大展拳脚后,马斯克旗下的人工智能公司紧随其后重磅发布了Grok 3系列模型。
DeepSeek“爆火”后,各家医疗企业争相部署似乎已成为春节复工以来的头等大事。据36氪不完全统计,节后复工以来,至少20家以上医疗领域企业公开宣布正在引入DeepSeek。其中虽不乏恒瑞医药、云南白药等传统药企;金域医学、圣湘生物等老牌IVD企业,但表现更活跃的各路AI医疗概念公司,如智云健康、鹰瞳科技、医渡科技、树坤科技等。