刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
7681点击    2025-08-12 13:07

一觉醒来,OpenAI 的大模型又完成了一项壮举!


在全球顶级编程赛事之一 ——2025 年国际信息学奥林匹克(IOI)中,OpenAI 的推理模型取得了足以摘得金牌的高分,并在 AI 参赛者中排名第一


IOI 2025(即第 37 届国际信息学奥林匹克)在玻利维亚的苏克雷举行,7 月 27 日正式开幕,并已于 8 月 3 日落下了帷幕。在此次赛事中,中国队大获全胜,全员金牌夺冠。


而就在不久前,OpenAI 刚刚在 IMO(国际数学奥林匹克竞赛)2025 中拿到了金牌级别的成绩。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


在比赛中,OpenAI 参加了 IOI 的在线 AI 赛道,在 330 位人类参赛者中,所用推理模型的得分只落后于 5 位人类选手,拿下了 AI 参赛者中的 No 1。


与人类选手一样,OpenAI 遵守了 5 小时答题时间和 50 次提交的限制。


同样地,OpenAI 没有使用互联网或 RAG(检索增强生成),仅能访问一个基础的终端工具。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


OpenAI 使用了一组通用推理模型,并且没有针对 IOI 进行专门的训练。唯一的辅助策略是选择要提交的解答,并与 IOI API 建立连接。


相较于去年 IOI 的表现,OpenAI 今年的这一成绩实现了巨大飞跃。


去年,OpenAI 仅差一点就拿到了铜牌,并且当时依赖一个更加人工定制的测试策略。短短一年的时间,OpenAI 的成绩就从第 49 百分位跃升到第 98 百分位


过去几周,OpenAI 在 AtCoder 世界总决赛、IMO 和 IOI 上都取得非常好的成绩,展示了最新研究方法带来的巨大进步,这些让人非常兴奋。OpenAI 正努力构建更聪明、更强大的模型,未来将尽快将它们带入主流产品中。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


下图为备战 IOI 2025 的团队成员以及长期推动 OpenAI 竞技编程的团队成员。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


OpenAI 联合创始人、总裁 Greg Brockma 盛赞了此次 IOI 中自家模型「金牌级的表现」。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


OpenAI 专注于多步推理、自博弈和多智能体 AI 的研究科学家 Noam Brown 表示,「重要的启示是:我们在 IMO 上取得金牌的模型就是最好的竞赛编程模型。」


他分享了更多的细节:在 IMO 结束后,他们对 IMO 金牌模型进行了全面评测,发现它不仅在竞赛数学方面表现最佳,在包括编程在内的许多其他领域也是最强的模型。


所以,团队决定直接使用完全相同的 IMO 金牌模型,不做任何改动,将它应用到 IOI 竞赛系统中


IOI 比赛中的辅助策略包括:先从几个不同的模型中采样解答,然后再用另一个模型结合启发式方法来筛选要提交的解答。最终获得了金牌,在所有参赛选手中排名第 6。


事实证明,在 OpenAI 采样的所有模型中,IMO 金牌模型的表现确实是最好的


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


对于此次 OpenAI 在 IOI 赛事中取得金牌,网友感叹到:没有专门训练就取得了这样的成绩,很了不起,这意味着通用推理能力正变得非常强大。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


对于这个模型的「真身」,大家也是各种猜测。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


也许正如下面这位网友所言,大家现在迫不及待想看到 OpenAI 推出采用在 IMO 和 IOI 2025 夺金推理模型的相同(或更强)技术的公开版本!看起来将会是又一次全方位的重大飞跃。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌


所以,OpenAI,别光顾着自夸,赶紧发布吧。


刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌



文章来自微信公众号 “ 机器之心 ”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI