ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
超越GPT-4,Claude 3超大杯成新王!
4527点击    2024-03-27 17:47
太疯狂了!Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中,Claude 3的超大杯成功登顶,就连最小的Claude 3 HaiKu都达到了GPT-4水平!


太疯狂了!Claude 3 Opus超越了GPT-4,成为新的国王!


今天,Chatbot Arena更新了聊天机器人对战的排行榜,在经过了时间的洗礼和群众的检验之后,之前略逊于GPT-4的Claude 3竟然反超了!



而且不仅仅是Claude 3的超大杯Opus成功登顶,藐视众生,Claude 3家族的整体表现都非常亮眼。


大杯Claude 3 Sonnet排到了第4,就连最小的Claude 3 HaiKu都达到了GPT-4水平!



那么相比于基准测试跑分,这个榜单的权威性如何?



Chatbot Arena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。


我们来看一下打分规则:


用户同时向两个匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型;

如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;

如果在对话中透露了模型的身份,则不会计算投票。

Chatbot Arena平台收集了超过40万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。


显然,这回Claude 3赢麻了。


我们来看一下真实的战况:


在所有非平局对战中, A对B获胜的比例:



模型之间的对战次数(无平局):



GPT-4终于被干掉了,对此,有网友开始恶搞:



刚在当地超市看到Sam Altman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过2分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在2分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。

“准备释放......”

咱也不知道Altman要放的是不是GPT-5。


网友表示,Claude确实要比GPT勤奋得多:



GPT-4-Turbo非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而Opus可以毫无遗漏地输出整个代码。

就连Claude-2也通过自己的勤奋和耐心感动了这位网友。


更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。



盲生你发现了华点!Claude 3 Haiku不仅与原始版本的GPT-4表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。


大家于是纷纷夸起了Claude 3 Haiku:



智能相当于GPT-4,价格比GPT-3.5便宜,而且据说模型可能只有20B大小。



有网友表示,OpenAI不行啦,现在Anthropic才是老大,一时间,平台内外充满了快活的空气。



ChatGPT 一年零增长


回过头来再看ChatGPT这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。


最近,有关统计平台曝出:ChatGPT在过去一年中居然零增长!



最近一段时间,ChatGPT一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈——Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。



对于几乎每个ChatGPT用例,现在都有大量垂直化的AI初创公司,致力于满足用户的需求,而不是满足于现有的ChatGPT界面和捆绑工具


它们有更好的UI选项(例如IDE和图像/文档编辑器)、更好的原生集成(例如用于cron重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT的默认RAG是幼稚且不可配置的)。


以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:





从某种意义上说,OpenAI的B2B和B2C部分相互竞争,这在某种程度上是良性竞争——OpenAI可以使用来自ChatGPT的RLHF数据进行训练。


而新的GPT商店可以看作是,OpenAI为了抓住这些垂直化需求的尝试。


——与其离开平台,到处支付20美元/月,为什么不留在ChatGPT内部而只需要支付一次,让OpenAI将理论上的收入分配给GPT创作者?



对此,大部分创作者也很明智,一般只向ChatGPT发布精简版的应用,作为自己主要平台的一个渠道。


在游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT的未来会以平台专属模型为特色。



所以,当Sora甚至是GPT-5公开发布时,一定会率先登陆自家的平台,也许那将是下一轮ChatGPT的增长点。


本文来源于公众号新智元,作者alan













关键词: claude 3 , claude , GPT-4 , Haiku , Elo , AI排行榜
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI