一夜之间,刚封神的GPT-4o被赶超了。
智东西6月21日报道,昨日晚间,Anthropic推出了新一代大模型Claude 3.5 Sonnet,在多项全球权威测评中一举超越了OpenAI的GPT-4o。
Claude 3.5 Sonnet不仅超过其已发最强模型Claude 3 Opus,在研究生水平的推理 (GPQA)、本科生水平的知识 (MMLU) 和编码能力 (HumanEval)多方面,也都刷新了行业基准。
在速度和成本方面,Claude 3.5 Sonnet是Claude 3 Opus的两倍,加上优惠的价格,它很适合帮用户处理编程、联动程序等复杂任务。
目前,用户可以通过Claude网页和iOS程序免费试用Claude 3.5 Sonnet,付费用户能更高速访问。
同时,客户可通过Anthropic API、Amazon Bedrock和Google Cloud获取该模型。API的收费标准是3美元/每百万输入tokens,15美元/每百万输出tokens,支持200k tokens上下文窗口。
发布之后,Claude 3.5 Sonnet立马在AI圈引起轰动。有网友称,使用Claude 3.5 Sonnet编程比GPT-4o效率高10倍。
有网友3分钟完成了马里奥游戏的克隆版,称最疯狂的是基于最新Artifacs预览功能,一键看到编程应用的预览效果。
Anthropic被视为OpenAI最有力的竞争对手之一,本次Claude 3.5 Sonnet的发布可谓狙击GPT-4o。这是其Claude 3.5的中杯版本,Claude 3.5 Haiku和Claude 3.5 Opus计划今年晚些时候推出。
有一个有意思的细节,在Anthropic的演示视频中出现的演示用户是“Sam”,这似乎是在问候OpenAI的CEO Sam Altman。
官方地址:https://claude.ai/
Claude 3.5 Sonnet在其公布的GPQA、MMLU、HumanEval等所有测评中,都超越了OpenAI的GPT-4o,仅数学能力得分略低于GPT-4o。
在AI搜索引擎创企Perplexity的试用评估中,Claude 3.5也获得了优于GPT-4o的表现。Claude 3.5 Sonnet现已在付费AI搜索引擎Perplexity Pro上推出。
在社交媒体X,不少第三方测评团队也给出了试用结论,相比于GPT-4o,Claude 3.5 Sonnet几乎成了推理、语言、编程、数据分析、数学和指令遵循方面的“六边形战士”。
Claude 3.5 Sonnet不仅超过其已发最强模型Claude 3 Opus,在速度和成本方面,Claude 3.5 Sonnet也与Anthropic的中端型号Claude 3 Sonnet旗鼓相当——运行速度是Claude 3 Opus的两倍,成本仅1/5。
在内部代理编码评估中,Claude 3.5 Sonnet成功解决了64%的问题,表现优于仅解决了38%的Claude 3 Opus。在得到指导和相关工具后,Claude 3.5 Sonnet 能够独立编写、编辑和执行代码,并具备复杂的推理和故障排除能力。
有网友在社交平台X贴出使用体验,仅仅25秒,Claude 3.5 Sonnet帮他编写了一个功能整齐的游戏程序。
Claude 3.5 Sonnet也是Anthropic目前最强大的视觉模型。
它在标准视觉基准测试中超越了Claude 3 Opus。对于需要视觉推理的任务,如解释图表和图形,这些改进尤为显著。此外,Claude 3.5 Sonnet还能准确地从质量不高的图像中转录文本。
如下图所示,在多项权威测评中Claude 3.5 Sonnet超过了GPT-4o,在所有测评中超越了Gemini 1.5 Pro。
如下图所示,Claude 3.5 Sonnet可以快速识别PDF文件内容并输出折线图。
当被继续要求生成网页演示内容,Claude 3.5 Sonnet也可以胜任。
现在,Anthropic还将在Claude.ai上推出Artifacts这一新功能,相当于一个预览功能,用以丰富用户与Claude的互动方式。
当用户请求Claude生成代码片段、文本文档或网站设计等内容时,这些Artifacts将在一个专用窗口中与对话一同展示。这为用户提供了一个动态工作区,他们可以实时查看、编辑和构建Claude的创作,将AI生成的内容融入自己的项目和工作流程中。
这一功能的推出标志着Claude从对话式AI向协作式工作环境的进化。
如下图所示,如果要搭建一款游戏并预览效果,用户进需要四个步骤。
首先,输入文本让Claude 3.5 Sonnet生成一个特定大小和风格的角色。
然后,让Claude 3.5 Sonnet为类似风格的视觉要素编程。
紧接着,一个整体的游戏页面被搭建出来,用户可以随时看到代码的生成过程。
最后,就连游戏运行起来的效果,用户也可以通过Artifacts模式进行预览。
在社交媒体X上,有网友称“这太疯狂了”,认为工件+渲染窗口是最佳的编码方式。
作为Anthropic对安全和透明度的承诺,Anthropic最近已将Claude 3.5 Sonnet提供给英国人工智能安全研究所(UK AISI)进行部署前的安全评估,并与美国人工智能安全研究所(US AISI)分享了结果。
Anthropic称其模型开发的核心原则之一是保护隐私。除非用户明确允许,否则Anthropic不会使用用户提交的数据来训练生成模型。Anthropic称其到目前为止未使用任何用户数据来训练生成模型。
Anthropic被认为是OpenAI最强竞争对手之一,Claude 3.5 Sonnet是Claude 3.5系列首款产品,今年晚些时候推出的Claude 3.5 Haiku和Claude 3.5 Opus,是等待OpenAI的后招。
除了研发下一代模型系列,Anthropic还在开发支持企业应用的功能和模式,包括与企业应用程序的集成。Anthropic的团队还在探索诸如“记忆”这样的功能,让Claude能够记住用户的偏好和特定的交互历史,从而提供更加个性化和高效的用户体验。
本文来自微信公众号“智东西”(ID:zhidxcom),作者:李水青
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/