
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下OpenAI o1的数学推理能力是否真的那么强?近日,来自港大的研究人员对模型进行了严格的AB测试,在非公开的国家队奥数题面前,o1证明了自己的实力。
OpenAI o1的数学推理能力是否真的那么强?近日,来自港大的研究人员对模型进行了严格的AB测试,在非公开的国家队奥数题面前,o1证明了自己的实力。
OpenAI下一代模型——o3,重磅诞生了!陶哲轩预言难住AI好几年的数学测试,它瞬间破解,编程水平位于全球前200,在ARC-AGI基准中更是惊人,打破所有AI纪录接近人类水平,离AGI更近一步。
不仅能推理,还能明确展示自己「推理逻辑」的大模型出现了。 OpenAI 的 12 天连续发布已近尾声,但它的热度显然已经被谷歌夺去了许多。从 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking,谷歌端上来的菜真是一道比一道香。
谷歌版o1来了!在奥特曼“双十二”倒数第二天——他们发布Gemini 2.0 Flash Thinking,顾名思义,以闪电般的速度解决复杂问题并展示其思考过程的实验模型。
OpenAI直播第九天,开发者们收到了一个超级大礼包。满血o1 API正式开放,实时API直接支持WebRTC,意味着未来人手一个Her。最最重要的是,API token直降60%。
OpenAI最近奉上了满血版的o1 Pro,这一全新系列的模型究竟有多强?它能否指明AI发展的未来方向?沃顿商学院教授在3个月的前一篇博客就中给出了「神预言」一般的答案。
大洋彼岸的OpenAI系列春晚还在继续,连续发布会的第9天,OpenAI正式发布了o1模型的API。
如果给小模型更长的思考时间,它们性能可以超越更大规模的模型。
你是不是以为发了GPT4.5?但很抱歉,今天只是发布了o1的API以及实时语音的新玩意。 还记得前段时间的OpenAI的DevDay吗?那上面曾经说过会更新OpenAI的API,现在期货交割了!这次OpenAI表现很好,才用了短短的一个多月就完成了交割,值得鼓励!(我是在吹不下去了。。。)
o1完整版公开仅10天,Scaling Law新范式就被逆向工程复现了!