ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑
2901点击    2024-11-03 15:02

一群大模型玩你画我猜,人类一旁围观超起劲儿。


就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。



其实这是最近爆火的一种新的测试基准(doge)。


游戏结果一定程度上能反映出大模型能力,比如这组测试一共进行了6局游戏,表现最好的是Claude:它赢了3次!


GPT-4o表现有点抽象。就它画的这龙卷风,人类也看不懂。




不止如此,在很多轮游戏中,其他模型都在认认真真地答题,而它的第一个回答经常是Circle??有点子抽象。





所以有人就说,这游戏可以当测试基准来用啊。



还有人表示,AI照这个速度发展,人类就只能当围观的瓦力了。



来看看更多有趣的例子


在比较简单的题目上,所有模型都在一两个回合中就猜对了答案,比如下面的房子



还有非常简洁的草地海洋




动物主题相对复杂一些,模型们一般需要猜4-5轮,比如大象这题:



游戏整体效果非常棒,网友们也是好评如潮:



你画我猜项目起源


模型画画早已不是新鲜事,但让大模型玩你画我猜?这天才想法是怎么产生的?


首先,不得不提到Simon Willison的一次测试,他让所有模型绘制自行车上有一只鹈鹕主题的图像,然后进行效果对比。



随后Paul Calcraft看到测试,他产生了一个想法:这样一个个比对太慢了,效果也不好,既然都画同一个主题,为什么不让大模型玩你画我猜的游戏呢?



没想到这位小哥说干就干,1天后就发布了“你画我猜”的0.0.1版(这令人羡慕的执行力)。



游戏中,他设定回答的模型每2秒猜测一次,回答更快的模型会更快返回答案。


网友评价褒贬不一


不少网友表示,之前大模型在《我的世界》里面比赛盖楼,令人印象深刻,而你画我猜可能成为新的视觉benchmark


还有人热心地提出了优化建议,比如以答对互相题目的速度作为评分准则,或者加入人类成绩作为参考。



还有人提议将游戏变成对抗式训练,这样大模型会进步更快。



不过,抛去趣味性,也有网友持负面观点,表示不理解这个项目的意义。



有网友调侃说,这个游戏的作用就是成为未来AI考古时的文物,帮助它们了解自己的起源。


好嘛,咱们AI有自己的洞穴壁画(doge)。



不过,游戏化学习(Learning through play)其实是教育理论和心理学中的一个重要术语。



多位网友表示,小孩子也是通过玩游戏来提升智力、学习技能的,或许这可以成为训练大模型的新方式。




虽然这次只有6轮游戏,参与的模型也有限,但确实是一次很有趣的实践。


作者Paul Calcraft也表示会继续更新这个游戏,包括分数显示、更多的游戏主题等等,期待更多后续!


参考链接:


[1]https://twitter.com/paul_cal/status/1850262678712856764


[2]https://www.reddit.com/r/singularity/comments/1gcval0/llm_pictionary/


[3]https://x.com/simonw/status/1849854290153939171


文章来自于微信公众号“量子位”,作者“奇月”


关键词: AI , AI玩游戏 , Claude6 , GPT-4o
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/