AI像人一样操作电脑,已然成为下一个前沿。
两天前,Anthropic进化版Claude 3.5 Sonnet首次实现自主操控电脑屏幕、移动光标、完成任务,惊艳了所有人。
当时,Anthropic开发者关系负责人称,「『计算机使用』是万能的API,它代表着全新人机交互范式的第一步」。
拿到测试资格的网友们,疯狂体验了这项「超能力」。
甚至,就连初创公司CEO对此赞不绝口,AI智能体已经来临,你现在可以建立AI军队为你工作。
在Anthropic加速布局智能体未来同时,OpenAI似乎也感受到了紧迫感。外媒最新爆料称,OpenAI内部正开发新品来自动化复杂的软件编程任务。
恰在昨天,OpenAI研究科学家、德扑之父在TED活动中表示,「自己对构建o1失去信心,正在OpenAI组建多智能体团队」。
这意味着,一场全新的竞赛即将开始,AI不再仅仅是对话生成,而应该去执行和操作。
那些上手Claude计算机使用能力的开发者们,根本停不下来创作。
从复杂的编码任务到深入研究,再到收集 「零散」的信息,许多令人惊叹的典型案例诞生了。
毕竟是自家首发的,Anthropic开发者关系负责人Alex Albert先了打个样。
他先用Claude计算机和bash工具,在线下载一个随机数据集,然后安装sklearn,在数据集上训练一个简单的分类器。
最后,在网页上就得到了分类器结果。
这些过程,不到5分钟的时间就完成了。
其中用到的提示,他也贡献出来了:
Go to https://data.gov, find an interesting recent dataset, and download it. Install sklearn with bash tool write a .py file to split the data into train and test and make a classifier for it. (you may need to inspect the data and/or iterate if this goes poorly at first, but don't get discouraged!). Come up with some way to visualize the results of your classifier in the browser.
一位开发者已经开始让Claude帮自己自主做科研了。
验证「你是不是人」,Claude可以代劳了。
想要Claude控制你的电脑,只需要:
pip install open-interpreter
interpreter --os
搜索YouTube视频,并跳过广告。
Claude一顿操作猛如虎,以后视频内置广告,通通交给它了。
打工人求职申请表填写,Claude也能胜任。这不,下面这位开发者小哥已经让AI自动申请Anthropic职位了。
进化版(左)和旧版(右)Claude 3.5 Sonnet在「我的世界」中构建的样子,令人印象深刻。
新升级后的Claude 3.5 Sonnet将如何影响「多智能体社会」的进步?
智能体研究初创公司Altera Al给出了答案,新模型是对长时间自主性的最大升级。我们的25个智能体在「我的世界」中合作,在20分钟内收集了超过40%的不同物品。
顺便提一句,Claude今天还重磅推出了可以编写和运行代码「分析工具」,为1024开发者们送上大福利。
目前,这一功能已在Claude中上线。
假设让Claude绘制销售渠道进展的直观图,它能自主分析数据写代码,并给出要求的可视化图。
然后,你可以在Artifacts中,可以详细查看细分项的数据。
虽然计算机使用工具并不完美,但它代表了Anthropic在AI中的一种愿景:
让Claude像人一样,看懂屏幕自主操作现有软件,完成各种复杂的任务。
这项能力背后的工作原理是:Claude先对屏幕截图,确定需要采取的行动,然后执行这些行行动。然后,再次截图决定下一步应该做什么。
畅想一下,如果智能体能够直接查看屏幕内容而无需依赖辅助功能,或查看底层代码的AI软件,可能会开启大量新机遇。
比如,当你搭建网站时,如果按钮中的文字意外超出按钮边界,AI智能直接看到后修复了这个问题,就省去了查看底层代码倒推步骤。
再举个栗子,当前网站制作者,已经非常巧妙地隐藏网站上广告的HTML代码。
这使得基于AI的广告拦截软件更难分析代码,并确定需要删除什么来去除广告。
但是,能够直接看到广告本身的「计算机使用智能体」会发现这项任务容易得多。
不过,这项技术带来弊端首先是「截图操作」成本太高,而且AI往往会假设它的操作已经成功执行。
「当它获取新的截图时,它已经不知道自己在操作流程中处于哪个阶段了」
另一方面,就是隐私问题了。
此前,已经有公司禁止员工使用ChatGPT、GitHub Copilot等编程工具,害怕不小心向模型开发商泄露专有信息或代码。
在劲敌Anthropic连连发布重压下,OpenAI其实早已开启了新的布局。
还记得几天前,Sam Altman突然冒泡,「下个月是ChatGPT的第二个生日,我们应该送它什么生日礼物呢」?
当时,一大波网友写下自己的愿望清单。
就在刚刚,有一条被传疯了的报道称,OpenAI计划在12月,解禁新一代大模型,代号为Orion。
根据爆料,Orion将使用o1合成的数据进行训练,并会在ChatGPT两周年前后发布。
但与GPT-4o和o1不同的是,它最初不会通过ChatGPT上线,而是先授予与OpenAI密切合作的公司访问权限(比如微软),方便他们构建自己的产品和功能。
不过,网友们的「美梦」还没做多久,Altman就站出来辟谣了:通通都是fake news!
在软件开发上,OpenAI目前正在开发多个产品和功能:
一部分简化在Microsoft Visual Studio Code等主流代码编辑器中使用OpenAI的AI进行开发的流程;
另一部分则着眼于处理更复杂的软件开发任务。
知情人士透露,OpenAI这款产品能够处理原本需要人类耗时数小时乃至数天的软件工程任务,还能据客户的指令自动编写和执行复杂应用程序的代码。
不过,具体发布时间还未确定。
毕竟,代码开发是OpenAI大语言模型的早期应用场景之一,主要是因为AI生成的代码可以快速验证其可用性。
2021年开始,微软GitHub团队利用OpenAI大模型推出AI Copilot,为程序员提供实时代码建议。
紧接着,ChatGPT在22年年底面世,提供一个更加易用、免费的替代方案,迅速走红。
随后,OpenAI成功说服数百万程序员付费使用「升级版」ChatGPT。
他们可以比GitHub Copilot更早体验升级版LLM,并能通过对话式指令处理各类开发任务。正因此,报道称这些功能让OpenAI相关订阅产品的年收入有望达到约30亿美金。
在智能体布局方面,OpenAI内部正组建一支多智能体团队,下一步可能倾向于智能体领域。
前段时间,他们发布的多智能体框架Swarm,也是引发了AI社区的关注。
据透露,OpenAI已经开发出了一款能够帮助提升工作效率的「内部研究助手」,并且获得了研究人员的一致好评。
其中的功能,就包括为AI模型相关的实验生成代码。
这款内部工具似乎是朝着开发能够自主进行AI研究的系统迈出的一步——这种能力不但需要编程技能,而且还需要具备为新实验提出想法和脑洞等能力。
OpenAI的领导层已公开表示,这一目标可能会在未来几年内实现。
另外,知情人士透露,OpenAI正在考虑开发升级版Canvas,这是一款对标Anthropic Artifacts的工具。
它能够实现和ChatGPT对话同时,在新的画布中协作,不论是编程还是创作,皆可互动。
就代码方面,在Canvas中用户能够让AI一键审查代码、修改bug等,帮助理解现有的代码基础和项目类型。
不过,他们还需要进行将代码复制粘贴到chatbot中,这一繁琐操作。
OpenAI所希望的是,能够推出更通用的AI智能体,类似于Anthropic发布「计算机使用智能体」,可以接管人类电脑处理代码以外更广泛的任务。
目前,OpenAI已在内部展示了一个AI智能体的初步版本,能够通过用户的计算机完成在线订餐等任务。
其实,Claude已经实现了在线点餐的能力
当遇到编程或应用开发难题时,这个AI智能体还能够自动查询网络资源寻求解决方案。
如今在AI编程领域,OpenAI已处于守势,曾经独占鳌头的局势正在改变。
现在,面对这个最危险的竞争对手Anthropic,它确实该做点什么了...
参考资料:
https://x.com/JeremyDanielFox/status/1849471327075270707
https://x.com/AnthropicAI/status/1849466471556038752
https://venturebeat.com/ai/anthropics-agentic-computer-use-is-giving-people-superpowers/
https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december
https://www.thariq.io/blog/claudecomputer/
文章来自于微信公众号“新智元”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/