内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌!
内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌!OpenAI在短短两个月内,让AI从挣扎于小学数学题跃升至国际数学奥林匹克(IMO)金牌水平,背后是通用AI技术的突破。
搜索
OpenAI在短短两个月内,让AI从挣扎于小学数学题跃升至国际数学奥林匹克(IMO)金牌水平,背后是通用AI技术的突破。
在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。
爱在西元前的歌词里唱到:「当古文明只剩下难解的语言,传说就成了永垂不朽的诗篇。」如今借助DeepMind推出的生成式AI工具Aeneas,考古学家面对古代碑文不再抓瞎了。
“听说 Showrunner AI 能直接生成剧本,还被好莱坞大导演抢着用。”我对这种跨界的 “新物种” 总是充满好奇,这玩意儿,是不是又一个噱头?虽仍处于封闭测试的阶段,却已有超 10 万用户挤入等候名单。这个 Showrunner AI,得好好研究研究。
这家刚揣进 1200 万美金 A 轮融资(Team8 领投)的公司,不看病、不开刀,专做一件事:把医院散落的临床指南,变成医生口袋里的 “智能导航”,在医疗软件死亡率高达 70% 的赛道里,它用 92% 的临床采用率杀出血路,此前获 500 万美元天使投资。
打工人超超超实用利器来了!还在自己苦巴巴地做汇报,干巴巴地念PPT么? 谷歌NotebookLM最新功能,只需要输入数据、图表、旁白,就可以自动生成带AI音频的PPT,甚至不需要自己去讲。
做出AI时代的LABUBU,成了大厂们的目标之一。不过就AI玩具来说,技术是加分项,但并不是核心。想做出下一个LABUBU,要在技术成本和情感溢价中找到平衡。 在2025年下半年,大厂的AI争夺战已经卷到了玩具上。
数字算命,在韩国狂吸金。 顺利去拜锦鲤,不顺则怪水逆。
Airbnb遇到的此次事件,或许还仅仅只是个开始。 无论是否承认,如今AI已经在改变世界,例如打工人用它来实现效率倍增,互联网大厂也有样学样,将其作为裁员的导火索,砸掉了一大批打工人的饭碗。同时它还成为了居心不良的黑灰产团队受众的武器,不久前#仅退款AI图#就曾登上微博热搜,更是引发了诸多关注。
GPT-5 上线之后,吐槽声一片。眼看舆论越来越不对劲,今天凌晨 OpenAI CEO 山姆·奥特曼(Sam Altman)紧急出来救火,发长文回应各种吐槽。