
陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流
陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流QwQ 具有神奇的推理能力。 一个刚发布两天的开源模型,正在 AI 数学奥林匹克竞赛 AIMO 上创造新纪录。
QwQ 具有神奇的推理能力。 一个刚发布两天的开源模型,正在 AI 数学奥林匹克竞赛 AIMO 上创造新纪录。
完蛋了,高考落榜了!
家人们,国产o1大模型,最近着实是有点火啊。 就在今天,昆仑万维的Skywork o1也开启了邀测。 那一波实测,这不就得安排一下么。
11 月 16 日,久未露面的月之暗面创始人杨植麟突然现身,召开了一场媒体发布会。
57天,人类和AI合作搞定了4694个等式之间22028942个蕴含关系!
最近,大家都被这条消息吓到了:传说Grok 3已经成功证明出黎曼猜想?!虽然这是在玩梗,但还是让我们来仔细剖析下,目前的AI距离千禧年数学难题,究竟还有多远。
30多年的数学猜想首次获得了进展!Meta等学者提出的PatternBoost,使用Transformer构造了一个反例,反驳了一个已悬而未决30年的猜想。是否所有数学问题都适合机器学习技术?这样的未来太令人期待了。
大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!
万万没想到,现在的国产AI搜索,竟然让我成功读懂了陶哲轩推荐的论文。
39年来一个看似理所当然的数学理论,刚刚被数学家证伪!UCLA和MIT的研究者证实:概率论中众所周知的假设「上下铺猜想」是错的。有趣的是,他们用AI已经证明到了99.99%的程度,但最终,靠的还是理论论证。