超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

8431点击 2025-02-17 17:47

ARC Prize，曾在去年底 OpenAI 12 天连发的最后一天赚尽了眼球，其发布已经 5 年的基准 ARC-AGI 首次迎来了得分达到优良等级的挑战者：o3 系列模型。参阅机器之心报道《刚刚，OpenAI 放出最后大惊喜 o3，高计算模式每任务花费数千美元》。

自那以后已经过去了两个多月，AI 领域早已经迎来了巨大的改变，其中尤其值得提及的便是 DeepSeek-R1 模型。凭借开源和低成本等优势，这款性能强大的推理模型不仅已经成为国内 AI 或云服务商的标配，还正被集成到越来越多的应用和服务中，甚至原来很多原本与 AI 没有直接关联的应用也以接入 DeepSeek 为卖点进行宣传。

那么，DeepSeek-R1 的 ARC-AGI 成绩如何呢？根据 ARC Prize 发布的报告，R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型，更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势：成本低。

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

来源：https://arcprize.org/blog/r1-zero-r1-results-analysis

上周六，ARC Prize 又发布了一个新的基准，这一次 DeepSeek-R1 不仅超过了 o1-mini，与 o3-mini 的差距也非常小。

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

这个新基准名为 SnakeBench，是一个 1v1 的对抗性基准。其思路很简单：将两个 LLM 放在一起进行贪吃蛇比赛。如下展示了一局 o3-mini 与 DeepSeek-R1 的对抗。

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

官方网站：https://snakebench.com项目地址：https://github.com/gkamradt/SnakeBench

SnakeBench：缘起

ARC Prize 的推文表示，SnakeBench 的设计灵感来自著名 AI 研究科学家 Andrej Karpathy 的一条推文，其中涉及到了让 AI 智能体在游戏中进行对抗以进行评估的思路。（这条推文还涉及到另一个使用游戏来评估 LLM 的基准 TextArena，感兴趣的读者可访问：https://www.textarena.ai ）

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

ARC Prize 表示，使用游戏作为评估环境可以检验 LLM 的多种能力，包括：

实时决策多重目标空间推理动态环境

模型的表现

ARC Prize 报告说他们目前已经使用 50 个 LLM 进行了总共 2800 场比赛，为这些模型的「贪吃蛇实时策略和空间推理」能力排了个座次。

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

具体过程是怎样的呢？

首先，以文本格式提供两个 LLM 角逐的棋盘，其中会通过提示词明确说明所用的 XY 坐标系。因此需要明确，这里提供的并非真正的 2D 表示 —— 这种信息转译可能会丢失某些空间推理信息。下面展示了一个提示词示例：

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

在游戏进行时，首先随机初始化每条蛇。然后要求两条蛇（LLM）同时选择下一步动作。当一条蛇撞到墙、撞到自己或撞到另一条蛇时，游戏结束。之后，根据游戏结果计算每条蛇的 Elo 评分。

以下为完整榜单：

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

据介绍，整体来说，Big Llama、o1、o3、Sonnet 3.5 和 DeepSeek 的表现最好，而其它 LLM 总是会撞墙。下面展示了几局效果最好的比赛：

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

ARC Prize 官网还详细列出了这四局比赛的完整详情，下面展示了其中第二局（DeepSeek-R1 vs o3-mini）的详情。在这里，不仅可以看到 LLM 每一步的选择，而且还能看到 LLM 为每一步选择给出的理由。当然，对于 DeepSeek-R1 模型，我们还可以清楚地看到其完整的思考过程。

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

Dry Merge CTO Sam Brashears 还注意到了一个非常有趣的回合。此时，o3-mini 和 DeepSeek 同时与一个苹果相邻，而它们竟然同时认为对方不会冒险吃这个苹果，于是决定自己去吃，结果导致双双毙命。

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

此时，DeepSeek 想的是：「如果我向右移动到 (8,7) ，同时如果蛇 1 也向左移动，则有与蛇 1 相撞的风险。但是，为了保证分数，吃到苹果优先于规避风险。」

而此时 o3-mini 也有类似的想法：「尽管我们的敌蛇（蛇 2）的头位于 (7,7) 处，也有可能想吃这个苹果，但没有强烈的迹象表明它会冒险用自己更长的身体与我正面碰撞。因此，吃到苹果的直接好处大于风险。」

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

以下是 ARC Prize 总裁 Greg Kamradt 总结的几点关键发现：

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

推理模型占据主导：o3-mini 和 DeepSeek 赢得了 78% 的比赛。
LLM 经常误解以文本格式提供的棋盘布局。这会导致模型错误地定位蛇头的位置，或者导致蛇撞到自己的尾巴。
较低档的模型（包括 GPT-3.5 Turbo 和 Haiku）表现不佳，而只有 GPT-4、Gemini 2.0 和 o3-mini 表现出足够的策略游戏推理能力。这说明基本的空间推理仍然是 LLM 面临的巨大挑战。大多数模型都无法跟踪自己的位置，并且会犯明显的错误。
上下文很关键。为了让 LLM 做出正确选择，需要让其加载大量信息，包括棋盘位置、苹果位置、其它蛇的位置等。

有趣的是，这种 LLM 对抗竞技显然很容易复现，CoreView 联合创始人兼 CTO Ivan Fioravanti 便基于 Ollama 让 deepseek-r1:32b 与 qwen2.5-coder:32b 进行了贪吃蛇比赛。

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

另外也有用户分享了自己让具有视觉能力的 LLM 玩贪吃蛇的经历，不过不同于 SnakeBench 的结果，反倒是 Gemini 表现最好。

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

参考链接

https://x.com/arcprize/status/1890464921604719103

https://x.com/GregKamradt/status/1890466144533749866

文章来自微信公众号 “ 机器之心 ”，作者关注AI评估的

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

关键词: o1-mini , o3-mini , DeepSeek-R1 , Ai测评

添加客服微信openai178，进AITNT官方交流群

驱动智慧未来：提供一站式AI转型解决方案

AITNT-国内领先的一站式人工智能新闻资讯网站

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

1

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

2

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

3

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0