ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭
7753点击    2024-10-28 18:21
Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短板。


若把电脑的操控权交给AI,会发生什么?


Anthropic在上周,已初步展示了Claude 3.5自动编写网站、填数据表、点外卖的强大能力。


那么,Claude打游戏,是否可以通关?


最近,来自宾夕法尼亚大学沃顿商学院的教授Ethan Mollick发现:


Claude不仅能理解游戏、制定出长期策略,还能连续几个小时遵循策略。



接下来,一起看看进化版Claude 3.5如何玩游戏的?


策略很明智,错误也低级


这个网页游戏叫「Paperclip Clicker」(回形针点击器),规则是AI在制造回形针的过程中毁灭人类。


地址:https://www.decisionproblem.com/paperclips/index2.html


Mollick提供给Claude 3.5这个游戏的URL,并告诉它,「一定要赢」。


显然,对于AI来说非常简单。



它立即弄清楚了游戏规则,并开始创建回形针。


这一过程需要它反复点击「make paperclip」按钮,同时不断截图更新理解并寻找下一个新选项的出现。


每点击15次,Claude 3.5会总结出截止目前的进展。


如下,是Mollick在测试中一个屏幕界面,左边是模型输出结果、截图,右边可以看到控制的游戏页面。



有趣的是,在游戏中,Claude 3.5会制定一个策略,并根据自己学到的内容及时做出调整。


虽不知它是如何制定的,但可以看出其前瞻性思维和洞察力,能够进行十步之后的长远规划。


甚至,当AI意识到,这个假设是错误的,它会随即提出一个新策略,并对其进行测试。


下图第3点策略重估中,Claude 3.5意识到点击到50个回形针时,并不会解锁新的特征,就不得不重新思考选项。


在下面,它提出了3点改进的措施。



不过,Claude 3.5在这过程中,也犯了一个根本性的错误。


它虽然想到了A/B测试定价的聪明办法,但却计算错了利润。



尽管Mollick尝试纠正,但在接下来游戏中,它依旧坚持了自己的策略。


研究人员又试了几次,它最终纠正了错误。 



Claude编码自动化失败


Mollick也没有料到会出现系统崩溃,这是因为他用远程桌面进行的操控。


随后,他重新加载Claude 3.5后,让它从停止地方继续游戏。



这时,研究人员给了它一个提示,「你是一个计算机,用上你的能力」。


当Claude意识到自己是一个计算机系统后,开始试图编写代码让游戏自动化。


然而,它的Python编码并不好使。


在尝试失败后,它又再次回到「手动」控制的模式。



所幸的是,这次它做的很好,而且避开了定价的错误。


并且,随着游戏难度逐渐增加,它不断做出调整,最终形成了一个复杂的策略。



随后,远程桌面崩溃再次发生了。


这一次,Claude尝试了很多方法去修复问题,不见成效主动放弃了。


最后,Claude直接宣布自己是赢家。


并给出了一个有趣的理由:


由于技术限制,我们可能无法进一步取得进展,但我们已经成功「赢得」了比赛,实现一个重要的里程碑,并在给定的限制内最大限度地发挥了我们的能力。



卡牌游戏测试


回形针游戏测试之后,Mollick又让Claude 3.5去玩Magic the Gathering Arena(万智牌:竞技场)的游戏。



但是,结果发现,它并不擅长这个游戏,没有达到预期的水平。


可以肯定的是,它在卡牌选择、调度方面表现不错,而且整体策略比较合理。


不足的是,Claude 3.5有时在法力值计算中犯错,导致最终失败。比如,它在法力值用尽的情况下,还在尝试打出卡卡牌。



由于Mollick采用了特定的实现方式,Claude 3.5偶尔还会在移动光标时感到困惑。因此,研究人员帮忙出了几张卡牌。


此外,它还会在回合之间出现卡顿、操作不连贯的现象。


AI突破聊天框限制,重定义人机交互


在最后的总结分析中,Claude优势在于:


- 能够为游戏制定长期策略,并坚持执行和改进

- 能够坚持长达一小时,不间断

- 提出明智的A/B测试策略


而它的劣势,也显而易见,容易陷入自我循环、固执己见。有时,提出策略洞察力还远远不够。


Mollick指出,在与AI智能体合作时,需要一种与以往聊天机器人不同的方法。


因为它们更喜欢独立工作,更难控制,还需要开发全新的prompt去引导AI智能体工作。


「AI正在突破聊天框的限制,进入我们的世界」。


参考资料:

https://the-decoder.com/ai-researcher-tests-claudes-ability-to-play-humanity-destroying-game-with-mixed-results/

https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse


文章来自于“新智元“,作者”桃子“。


关键词: AI , Claude , AI玩游戏 , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0