AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种
6646点击    2024-11-15 20:13

测评大模型Agent能力,从未如此直观。


新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


如果让AI不断迭代,甚至能盖出一片建筑群。


为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


作者adi戏称其为目前“唯一可靠的评测基准”。


Aidan Bench作者Aidan McLau认为评测基准界正需要这个,审美也与智力显著相关。


他甚至愿意提供资金,把这个项目扩展成完整的评测。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


总之在开源社区帮助下,代码迅速上架GitHub,更多模型测试结果陆续出炉中。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


比如以慢思考著称的OpenAI o1系列,o1-preivew确实盖的更慢,但结构也更完整。o1-mini则无法胜任这个任务。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


最终在人类喜好评估(2000+网友投票)中,Sonnet 3.6小赢了一手创意性。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


如果不比创意比模仿真实建筑泰姬陵,o1-preview就占很大优势了。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


照这个趋势下去,这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……


新型MC Bench火了,竞技场模式开发中


大模型在《我的世界》里盖楼,并不是靠接管鼠标键盘,也不需要视觉理解能力。


而是通过文本提供上下文,并生成下一步操作指令,或许可以理解成根据棋盘行列编号下盲棋。


具体到游戏中,AI会控制一个角色,玩家只需要在聊天框中打字说明想要AI建造什么就可以了。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


网友Mckay Wrigley制作了视频教程,在15分钟内就可以使用开源代码设置好测试环境。(地址在文末获取)


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


使用mineflayer开源库,可以把大模型生成的指令解析成可操作的API调用。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词,和少量in-context learning示例。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


目前,MC Bench开源项目组打算进一步完善,做成类似Lmsys大模型竞技场一样的天梯机制,人类用户投票,使用Elo算法记分排名。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


与此同时,更多其他模型的测试结果也在持续更新中。


更多AI作品


Claude Sonnet非常擅长以塔为主题自由发挥,只需给到足够算力。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


o1-preview则可以发挥慢思考能力,用不同颜色的方块排列出太阳系。


不仅天体的顺序是正确的,连相对体积都有所体现,当然如果太阳按真实比例会让游戏崩溃……


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


小模型难以规划复杂的建筑,但理解和还原简单指令方面,gemini-1.5-flash胜过gpt-4o-mini


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


让开源大模型Llama 3 405B盖一个反应它自己个性的东西,AI选择了火坑上的钻石墙。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


整体看下来,最有意思的或许还是这个:


让o1-preview自由发挥,随便盖一个酷的东西。


AI选择搭了一个机器人形象,并拼出GPT三个字母。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


作者透露,接下来会继续测试一众中等大小开源模型。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


目前初步结果,阿里Qwen 2.5-14B表现不错。


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种


感兴趣的朋友可以玩起来了。


视频教程:


https://x.com/mckaywrigley/status/1849613686098506064


开源代码:


https://github.com/kolbytn/mindcraft


https://github.com/mc-bench/orchestrator


参考链接:


[1]https://x.com/adonis_singh/status/1849529291085623372


[2]https://x.com/aidan_mclau/status/1849535981826752632


文章来自于微信公众号“量子位”,作者“梦晨”


AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0