来了!Claude 发布新版本的 3.5 Sonnet 和新发布的 3.5 Haiku,能力都有大进步。
而且,这次 Claude 发布了一个重磅新功能——一个新的「计算机使用」API,该模型可以模拟按键、按钮点击和鼠标动作,实质上模拟了一个人坐在电脑前的操作。开发者现在可以通过 API 指导 Claude 像人类一样操作计算机, 包括观察屏幕、移动鼠标、点击按钮和输入文字。
也就说,Claude 可以操作电脑了!
「我们训练了 Claude 以识别屏幕上发生的情况,并利用可用的软件工具来执行任务,」Anthropic 声称。「当开发者指示 Claude 使用某款计算机软件并赋予其必要权限时,Claude 会查看用户可见的屏幕截图,然后计算出为了点击正确位置,光标需要垂直或水平移动多少像素。」
Claude 3.5 Sonnet 成为了首个在公开测试中提供这一功能的大模型,具体能力和介绍参见下文。
前不久 OpenAI「抄」了 Anthropic 的 Artifacts,在网页上用对话打开生产力,现在 Anthropic 继续推进生产力的能力边界,似乎在产品端比 OpenAI 有更多想法。
升级后的 Claude 3.5 Sonnet 在各个方面都有显著提升, 尤其是在编码能力上更是取得了惊人的进步。
在编码能力方面,Claude 3.5 Sonnet 在 SWE-bench Verified 测试中的表现从 33.4% 跃升至 49.0%, 超越了所有公开可用的模型, 包括 OpenAI 的 o1-preview 等推理模型和专门为主动编码设计的系统。在衡量主动工具使用能力的 TAU-bench 测试中,Claude 3.5 Sonnet 同样表现出色:在零售领域的得分从 62.6% 提升到 69.2%,在难度更高的航空领域则从 36.0% 提高到 46.0%。
Claude 声称,代码托管平台 GitLab 在 DevSecOps 任务中测试了该模型, 发现其推理能力在各种用例中最高提升了 10%, 同时没有增加任何延迟, 这使得它成为支持复杂软件开发流程的理想选择。AI 公司 Cognition 将新版 Claude 3.5 Sonnet 应用于自主 AI 评估任务, 在编码、规划和问题解决等方面都观察到了显著的进步。而 The Browser Company(Arc 浏览器)在使用该模型自动化网络工作流程时,发现 Claude 3.5 Sonnet 的表现超越了他们此前测试过的所有模型。
Claude 3.5 Haiku 保持了与 Claude 3 Haiku 相同的使用成本和接近的运行速度,在各个方面都实现了全面提升。甚至在多项智能基准测试中超越了 Claude 3 Opus, 展现出惊人的进步。
Claude 3.5 Haiku 在编码任务上的表现尤为亮眼。以 SWE-bench Verified 测试为例, 它取得了 40.6% 的优异成绩, 不仅超越了许多使用公开可用的顶级模型的智能代理, 甚至还胜过了原版的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4o。
新模型的特点是低延迟、更强的指令理解能力和更精准的工具使用。这些优势使得 Claude 3.5 Haiku 成为开发面向用户产品、执行专业子任务, 以及从海量数据 (如用户购买记录、价格信息或库存数据) 中生成个性化体验的理想选择。
首次发布时, 它将以纯文本模型的形式提供服务, 而支持图像输入的功能将在后续更新中推出。
Anthropic 声称,为了培养 AI 的通用计算机性能,他们开发了一个创新的 API,使 Claude 能够感知和操作计算机界面。通过集成这个 API,开发者可以让 Claude 将自然语言指令 (比如"使用我电脑上和网上的数据填写这个表格") 转换为一系列具体的计算机操作 (如查看电子表格、打开浏览器、浏览网页、填写表格等)。
这意味着 Claude 现在能够像人类一样, 使用各种标准工具和软件程序。
Anthropic 表示,Claude 在 OSWorld 中正确执行任务的次数占 14.9%。这一成绩远低于人类通常约 75% 的得分,但显著高于当前最佳代理——包括 OpenAI 的 GPT-4——后者成功率约为 7.7%。
「计算机使用能力有可能改变需要跨多个应用程序导航的任务的执行方式,」Anthropic 的首席产品官 Mike Krieger 表示,「这可能会带来更具创新性的产品体验和简化的后台流程。」Krieger 强调,这一新功能仍处于测试阶段,但随着技术的进步,它有望提升数据分析、可视化及用户界面交互的效率,使众多任务执行更加高效。
Anthropic 将其对 AI 代理概念的诠释称为「动作执行层」,使得新的 3.5 Sonnet 能够执行桌面级命令。得益于其浏览网页的能力(虽非 AI 模型首创,但为 Anthropic 首次),3.5 Sonnet 能够使用任何网站和任何应用程序。
自主完成供应商请求表单,通过从 CRM 系统中检索所需信息
Anthropic 的早期合作伙伴,包括 GitLab、Canva 和 Replit,已从 Claude 3.5 Sonnet 的新功能中获益。专注于软件开发与安全的 GitLab 一直在测试该模型,以自动化其开发流程中的任务。据公司称,Claude 将推理能力提升了高达 10%,且未影响性能,非常适合软件测试与部署等复杂的多步骤流程。
软件开发平台 Replit 已采用新版 3.5 Sonnet 模型的早期版本,创建了一个「自主验证器」,能够在应用构建过程中对其进行评估。Replit 总裁 Michele Catasta 表示,该模型「开启了创建强大自主验证器的大门,能够在应用构建过程中进行评估。」这有望缓解软件开发中的瓶颈问题,其中测试环节常常导致项目进度延误。与此同时,Canva 表示正在探索新模型如何支持设计和编辑流程的可能性。
在个人电脑上自动化执行任务的工具并非新鲜概念。从历史悠久的 RPA 供应商到 Relay、Induced AI 和 Automat 等新兴企业,无数公司都提供了这类工具。
一些分析师表示,AI 代理可能为企业提供了一条更便捷的途径,以实现其投入 AI 领域的数十亿美元的商业变现。企业似乎对此表示认同:根据凯捷咨询最近的一项调查,10% 的组织已采用 AI Agent,而 82% 的组织计划在未来三年内整合这一技术。
今年夏天,Salesforce 对其 AI Agent 进行了高调宣传,而微软则在昨日推出了用于构建 AI Agent 的新工具。正在策划自家 AI Agent 的 OpenAI 认为,这项技术是迈向超级智能 AI 的一步。
这种新能力与传统自动化工具的区别在于,Claude 并不局限于特定的流程或软件程序。相反,它能够通过截图「看到」屏幕,与多种应用程序互动,并随着任务的出现而适应不同工作。这种灵活性使其比当前的机器人流程自动化(RPA)技术更为多才多艺。
与此同时,也有其他公司在研发类似的功能,Rabbit 正在开发一个网络 Agent(LAM,大型行动模型),能够在线购买电影票等;最近被亚马逊收购的 Adept 训练模型浏览网站并操作软件;而 Twin Labs 则利用包括 OpenAI 的 GPT-4o 在内的现成模型来自动化桌面流程。
AI Agent 面临的一个关键挑战是,其错误可能远比聊天机器人回复混乱更为严重。Anthropic 对 Claude 的能力施加了特定限制——例如,限制其使用个人信用卡购物的能力。Anthropic 还表示,已采取措施防止滥用,例如不在用户截图和提示上训练新的 3.5 Sonnet,并阻止模型在训练期间访问网络。公司称,开发了分类器来「引导」3.5 Sonnet 远离被视为高风险的行为,如在社交媒体上发帖、创建账户以及与政府网站互动。
短期内,企业可在数据录入、客户服务和 IT 支持等领域迅速提升生产效率。但随着技术成熟,其潜在应用范围或将远远超出这些初期应用场景。
设想一个世界,其中 AI 可以处理复杂的法律流程,从审查合同到完成合规表格。或者想象 AI 辅助医生浏览电子健康记录,并通过交叉参考医疗数据库来诊断患者。
Claude 的新「计算机使用」功能,或许可以让我们更接近一个未来,即 AI 能够执行跨越不同软件应用和系统的广泛任务。这赋予了它前所未有的灵活性,而以往的人工技术往往局限于特定、狭窄的任务。
文章来自于“Founder Park”,作者“Founder Park”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/