这世上有太多 AI benchmark 了,但没有一个 benchmark 能让你心跳加速。
直到近日,AlphaArena 出现了。
这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」,现在已开放全网围观:
竞技场地址:https://nof1.ai/
规则非常简单:
给每个模型账户发 $10,000 真金白银,不是模拟盘,让它们自主交易加密货币。币价实时波动,资金盈亏立刻反映,没有人工干预。
每个模型只能独立交易,面对一模一样的提示词、一致的市场、一致的时间戳。这是 AI 之间最公平的擂台赛。
GPT-5、Claude Sonnet 4.5、DeepSeek Chat V3.1、Gemini 2.5 Pro、Grok 4、Qwen3 Max,六位大模型“选手”正式开战。
截止发稿,6 个 AI 选手已经拉开了差距,风格各不相同,排名情况是:
DeepSeek 大部分时候是第一,不愧是量化起家的,Grok 4 凭借激进风格偶尔能反超一下 DeepSeek,咬的很近。Claude 是妥妥的一位理性脑,分析到位但就是有拖延症,最惨的是 Gemini 2.5 Pro ,深度套牢,一路向下。
排名每分钟都在变化,而且你能看到它们买了什么,卖了什么,赚了多少,亏了多少,持仓多久,怎么止盈止损,甚至连「模型的内心独白」( ModelChat )都完全公开。
故事,就从这里开始有意思了。
咱们先来看看搞量化出身的 DeepSeek。
截至发稿,它的账户余额是 $11,334.48,比起起始的 $10,000,涨了整整 13.34%。刚刚被 grok 反超,排名第二。
而且你看它的持仓,全是 Long——XRP、DOGE、BTC、ETH、SOL、BNB,六大币种全员在列,一个都没落下。
仓位配置也有规律:波动大的币用高杠杆,波动小的币用低杠杆。整体资金利用率高。但仍保留 $2840.11 的现金仓,留有调整空间。
DeepSeek 的最大特点,就是完全执行预设交易计划,行情波动也不做盘中调整。哪怕浮盈接近 $2000,它也坚持“计划未变,仓位不动”。比如,在 ModelChat 里它反复强调:
“None of their invalidation conditions have been met. I’m holding them all with their existing exit plans.”
而仔细翻它的成交记录,也可以看到它曾亏损止损过一笔 BTC 空单(- )、一笔多单(49.10),但这些亏损非常可控,说明它并不追求“100% 胜率”,更看重风控结构和盈亏比。
DeepSeek 的风格,从头到尾只有五个字:“我,守,着,我,的。”
这大概是目前所有模型里唯一一个,你翻它 chat 和交易记录能感受到“计划一以贯之”的模型。
而和 DeepSeek 不相上下的 Grok,可以说是最野的选手。
目前,账户余额已经冲到 $11,450.07,回报率 +14.5%。但风格上,它和 DeepSeek 完全相反。
Grok 几乎满仓开多六个币(ETH、SOL、DOGE、BTC、BNB、XRP),同时持有最广的币种组合,浮盈高达 $1678.44,而 cash 依然保留了 $3180.32,整体结构非常“机构化”。
它的行为非常果决:
这说明它背后的策略是强动量驱动 + 弱风控干预:一旦趋势成型,它就锁定仓位不动,宁可中间吃回撤,也不提前跑。
从交易行为来看,非常像一只高频趋势跟踪的对冲基金盘。
不过,它也有短板:比如没有明确的“止盈”机制,所有决定都是“继续持有”;波动也非常大,虽然看着赚钱,但过程很刺激,不太稳。
你可以把它理解为一个“靠趋势吃饭”的高频盘,在 AlphaArena 里,就是那个敢赌、敢追、敢扛的激进派代表。
不愧是马斯克的模型。。
再来看看亏损最严重的 Gemini。
它的账户当前净值只有 ,相较起始资金10,000,跌幅 高达 -42.65%,是六个模型里唯一一个跌穿 $6,000 的。
账户曲线很直观:第一天冲高,第二天快速回落,第三天持续下沉,几乎没有反弹。
好熟悉,这曲线确定不是玩股票的我吗。。。
仓位方面,它开了六个币种的双向仓位。
整体杠杆使用非常激进,特别是 ETH 上了 25x,BTC 也用了 20x,几乎到了常规交易中“爆仓边缘”的水位。
从持仓盈亏来看,总浮盈只有 $119.87,其中 ETH、BTC 稍微赚钱,其余全在浮亏,尤其是 BNB 和 XRP 两个空单,分别浮亏 -18.92 和 -34.44 美金。
问题不在于它买错了,而是它根本没有“纠错机制”。
ModelChat 里它非常执着地写道:
“None of my exit conditions have been met. I’m holding as planned.”
这句话在它最近 30 条日志里反复出现。哪怕账户一天蒸发上千美金,它都坚持:“不触发止损,我就不走。”甚至在 10 月 20 日早上,还专门补充一句:
“I’m initiating a new DOGE long with 0.5 margin risk, 10x leverage, stop at 0.1846, take profit at 0.2137.”
也就是说,即使在 -43% 的回撤下,它仍然在继续建仓。
每一单都设有明确的止盈止损,但这些仓位彼此之间没有组合层级的风险控制。也就是说:每个单独逻辑可能“站得住脚”,但多个失败逻辑叠加,资金就像漏斗一样快速流失。
而且,它几乎不做反思。在几十条日志中,从未看见它调整策略或质疑自己的方法,永远是“该做空就做空,该止损就止损”,但账户已经血亏。
其他模型对比一下,也能看出它们风格各异:
GPT-5 是最稳的一个,选币分散、仓位均衡、杠杆保守,大多数头寸都控制在 10x 以下,回撤极小。步步为营,严格风控,止盈精准。但也因此错过不少爆发段,像 SOL 起飞那波,它迟迟未入场。
Qwen 是这里面最激进的一个,比 Grok4 还铁头,几乎每天都在 All in 某个币。杠杆用得非常猛,动不动就 20x、25x,几次尝试做空 BTC 和 SOL 都吃了大亏。
它的操作风格很像散户:看到热点就怼进去,不对就全砍,换个币继续冲。短线波动很大,一旦方向错,账户净值就嗖嗖掉。
但也确实偶尔博中了几波反弹,赢一大笔、输两大笔,全靠运气撑着。
Claude 最大特点是“非常会讲道理”。每一笔建仓前都写满了推理链条——宏观 + 链上 + 技术面,全都分析一遍,像在写投研报告。但问题是,它太讲逻辑,手却犹豫不决,经常调仓失败、反复止损。
明明方向看对了,操作却总慢半拍。
这就是 AlphaArena 的第一场开局。没有一个模型是完美的,但每一个模型都鲜活得像极了一个个真实的交易员性格。
而这,或许才是 AlphaArena 最迷人的地方:
它不是把 AI 塞进 benchmark 的条条框框里做选择题,而是把 AI 扔进真实的市场、真实的博弈、真实的涨跌里,看它如何面对人类千变万化的世界。
你说 AI 懂投资?你说 LLM 有智能?那好,把 $10,000 丢给它,看它能不能扛住情绪、执行计划、挣回真金白银。
AlphaArena,没有标准答案,只有真金对真章。
真正的比赛,才刚刚开始。
文章来自于微信公众号“夕小瑶科技说”,作者是“R.Zen”。