 
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景,形式化推理与验证(formal reasoning and verification),也获得持续关注。
 
随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景,形式化推理与验证(formal reasoning and verification),也获得持续关注。
 
Kimi未来还能够翻盘吗? 从公司发展路径上来看,并非没有可能。 作为曾经对OpenAI技术跟随最快的公司,Kimi在去年做出了Kimi探索版、k0-math等多个跟随OpenAI技术的模型,而杨植麟本人也在采访中,表示大模型的未来不仅在于强化学习,还在于多模态能力。 这一点似乎也与OpenAI类似。
 
RedStone是一个高效构建大规模指定领域数据的处理管道,通过优化数据处理流程,从Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等数据集,在多项任务中超越了现有开源数据集,显著提升了模型性能。
 
随着 Roblox 和 Minecraft 等游戏平台在年轻儿童中越来越受欢迎,以及 YouTube 等平台占据了他们每天大量的屏幕时间,教育科技公司在吸引他们的注意力方面面临挑战。
 
Sakana AI发布了Transformer²新方法,通过奇异值微调和权重自适应策略,提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA;即便是从未见过的任务,比如MATH、HumanEval和ARC-Challenge等,性能也都取得了提升。
 
OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。
 
小模型也能击败o1?微软全华人团队提出rStar-Math算法,三大革命性技术突破,不仅让SLM在数学推理能力上刷新SOTA,更是挤进了全美20%顶尖高中生榜单。
 
新模型在MATH上(以数学竞赛为主)动辄跑分80%甚至90%以上,却一用就废。
 
数学大佬陶哲轩和OpenAI两位高管最近进行了一场线上对谈,主题为“The Future of Math with o1 Reasoning”,即以推理为主的o1模型如何与数学融合,从而解锁突破性的科学进步。
 
11 月 16 日,久未露面的月之暗面创始人杨植麟突然现身,召开了一场媒体发布会。