ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种
6247点击    2024-11-15 20:13

测评大模型Agent能力,从未如此直观。


新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。



如果让AI不断迭代,甚至能盖出一片建筑群。


为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。



作者adi戏称其为目前“唯一可靠的评测基准”。


Aidan Bench作者Aidan McLau认为评测基准界正需要这个,审美也与智力显著相关。


他甚至愿意提供资金,把这个项目扩展成完整的评测。



总之在开源社区帮助下,代码迅速上架GitHub,更多模型测试结果陆续出炉中。



比如以慢思考著称的OpenAI o1系列,o1-preivew确实盖的更慢,但结构也更完整。o1-mini则无法胜任这个任务。



最终在人类喜好评估(2000+网友投票)中,Sonnet 3.6小赢了一手创意性。



如果不比创意比模仿真实建筑泰姬陵,o1-preview就占很大优势了。



照这个趋势下去,这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……


新型MC Bench火了,竞技场模式开发中


大模型在《我的世界》里盖楼,并不是靠接管鼠标键盘,也不需要视觉理解能力。


而是通过文本提供上下文,并生成下一步操作指令,或许可以理解成根据棋盘行列编号下盲棋。


具体到游戏中,AI会控制一个角色,玩家只需要在聊天框中打字说明想要AI建造什么就可以了。



网友Mckay Wrigley制作了视频教程,在15分钟内就可以使用开源代码设置好测试环境。(地址在文末获取)



使用mineflayer开源库,可以把大模型生成的指令解析成可操作的API调用。



mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词,和少量in-context learning示例。



目前,MC Bench开源项目组打算进一步完善,做成类似Lmsys大模型竞技场一样的天梯机制,人类用户投票,使用Elo算法记分排名。



与此同时,更多其他模型的测试结果也在持续更新中。


更多AI作品


Claude Sonnet非常擅长以塔为主题自由发挥,只需给到足够算力。




o1-preview则可以发挥慢思考能力,用不同颜色的方块排列出太阳系。


不仅天体的顺序是正确的,连相对体积都有所体现,当然如果太阳按真实比例会让游戏崩溃……



小模型难以规划复杂的建筑,但理解和还原简单指令方面,gemini-1.5-flash胜过gpt-4o-mini



让开源大模型Llama 3 405B盖一个反应它自己个性的东西,AI选择了火坑上的钻石墙。



整体看下来,最有意思的或许还是这个:


让o1-preview自由发挥,随便盖一个酷的东西。


AI选择搭了一个机器人形象,并拼出GPT三个字母。



作者透露,接下来会继续测试一众中等大小开源模型。



目前初步结果,阿里Qwen 2.5-14B表现不错。



感兴趣的朋友可以玩起来了。


视频教程:


https://x.com/mckaywrigley/status/1849613686098506064


开源代码:


https://github.com/kolbytn/mindcraft


https://github.com/mc-bench/orchestrator


参考链接:


[1]https://x.com/adonis_singh/status/1849529291085623372


[2]https://x.com/aidan_mclau/status/1849535981826752632


文章来自于微信公众号“量子位”,作者“梦晨”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0