
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进而启发构建推理模型的新思路。
本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进而启发构建推理模型的新思路。
DeepSeek依旧牢牢占据中国AI产品访问量第一的宝座,其月访问量甚至超过其他几款主流产品的总和。相比之下,腾讯「元宝」和「Kimi」的流量则出现明显下滑,环比降幅超过20%。在广告投放趋于保守之后,用户增长逐步放缓,流量更加依赖产品本身的可用性和用户黏性。
“公安部计算机信息系统安全产品质量监督检验中心”今日发布《公安部计算机信息系统安全产品质量监督检验中心检测发现35款违法违规收集使用个人信息的移动应用》的推文,其中智谱智谱、kimi等明星人工智能APP赫然在列。
AI大模型“六小虎”之一的月之暗面,近期对AI医疗产品进行了布局,用于提升旗下产品Kimi在专业领域的搜索质量,并且探索Agent等产品方向。针对上述信息,月之暗面回应《智能涌现》:Kimi近期持续在优化财经、法律、医学等专业领域的搜索信源质量,希望给用户提供更可信、可靠的高质量回答。
内容社区能不能打破AI困境?
DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。在普特南测试上,新模型DeepSeek-Prover-V2直接把记录刷新到49道。目前的第一名在657道题中只做出10道题,为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。
六边形战士来了。
现在,AI 产品仅仅只靠机器人尬聊,已经留不住用户了,这是显而易见的新共识。
当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。
AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时,一些代表着未来的AI巨头,却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。