o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
搜索
就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
谷歌DeepMind的AI,终于拿下IMO金牌了!六个月前遗憾摘银,如今一举得金,SKEST新算法立大功。这不,它首破解了2009 IMO最难几何题,辅助作图的神来之笔解法让谷歌研究员当场震惊。
图像生成模型,也用上思维链(CoT)了!此外,作者还提出了两种专门针对该任务的新型奖励模型——潜力评估奖励模型。(Potential Assessment Reward Model,PARM)及其增强版本PARM++。
当ChatGPT用对话颠覆人机交互时,车企们早已嗅到了AI大模型的潜力——从语音助手到自动驾驶,从情感陪伴到场景决策,智能座舱的体验边界正被重新定义。
这两天,韩束母公司上美股份创始人吕义雄的一段工作群中的聊天截图在社交媒体上疯传。在聊天截图中,吕义雄表达了激进的用人策略,即用AI替代大部分人,只留少量能够使用AI的人。
新年伊始,在估值攀上 3400 亿美元的新巅峰后,OpenAI 也辞旧迎新,更换了新字体、新标志、新配色方案,进行了一次全面的品牌重塑。Open AI 这次重塑的目的,一是为了摆脱设计总监 Shannon Jager 所说的「OpenAI 一直在用相当随意的方式,向世界展示自己。字体、Logo 和颜色的杂乱无章,只会彰显出公司缺乏明确的统一战略。」
今年春节deepseek的爆发,一方面是看到了国内AI的崛起,另一方面也是没能让我们过一个好年。几个朋友就和我说,感觉自己虽然每天都在努力的摄入AI知识,但是发现自己的学习速度还比不上AI的更新速度。
除了o1/o3,OpenAI另一个尚未公开的内部推理模型曝光了。爆料者正是CEO奥特曼本人。据他透露,与全球顶尖程序员相比,当前这一内部模型的编程能力已达Top50,甚至今年年底将排名第一。
刚刚,“顶级”域名 ai.com 被人发现,被重定向到 DeepSeek 官网!我输入 ai.com,就会直接出现 DeepSeek 官网 ⬇️,绝对保真!
DeepSeek 的最新模型 DeepSeek-V3 和 DeepSeek-R1 都属于 MoE(混合专家)架构,并在开源世界产生了较大的影响力。特别是 2025 年 1 月开源的 DeepSeek-R1,模型性能可挑战 OpenAI 闭源的 o1 模型。