刚刚,大模型竞技场榜单上再添一款国产模型——
来自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。
同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。
特别是在编程、数学等方面表现格外突出,能够与满血o1、DeepSeek-R1并列第一。
Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型,采用模型两两组队交给用户盲测,根据真实对话体验对模型能力进行投票。
也正因此, Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。
在其新开的网页应用开发WebDev榜单上,Qwen2.5-Max也冲进了前十。
对此lmsys官方评价说,中国AI正在快速缩小差距!
并且亲身使用过的网友表示,相比之下Qwen的表现更加稳定。
还有人说,Qwen很快就会取代硅谷的所有普通模型。
综合榜单前三名中第一、二名被谷歌Gemini家族包揽,GPT-4o和DeepSeek-R1并列第三。
Qwen2.5-Max则是和o1-preview一起并列第七名,稍逊于满血o1。
接下来Qwen2.5-Max在各个单项中的表现。
在逻辑性较强的数学和代码任务当中,Qwen2.5-Max的成绩都超过了o1-mini,和满血o1以及DeepSeek-R1并列第一。
并且在数学榜单上并列第一的模型当中,Qwen2.5-Max是唯一一个非推理模型。
如果仔细观察具体的对战记录,还可以发现,Qwen2.5-Max在代码能力上和满血o1进行PK的胜率达到了69%。
复杂提示词任务中,Qwen2.5-Max和o1-preview并列第二,如果仅限英文则可以排到第一,和o1-preview、DeepSeek-R1等平起平坐。
另外,Qwen2.5-Max的多轮对话能力也和DeepSeek-R1并列第一;长文本(不低于500tokens)则排行第三,超过了o1-preview。
此外,阿里还在技术报告中展示了Qwen2.5-Max在一些经典榜单上的表现。
其中指令模型的对比当中,Qwen2.5-Max在Arena-Hard(近似人类偏好)、MMLU-Pro(大学水平知识)等基准当中,都和GPT-4o以及Claude 3.5-Sonnet处于近似或更高的水准。
在开源的基座模型对比当中,Qwen2.5-Max的成绩也全面超过了DeepSeek-V3,并遥遥领先于Llama 3.1-405B。
至于base model,Qwen2.5-Max在大多数基准测试中,也都展现出了显著的优势(闭源模型base model无法访问,只能比较开源模型)。
Qwen2.5-Max上线后,大量网友都来实测。
目前发现它在代码、推理等方面的表现突出。
比如让它用JavaScript写一个象棋游戏。
因为具备Artifacts功能,一句话开发的小游戏,可立刻开玩:
它生成的代码往往更简单易读好用。
复杂提示词的推理问题上,Qwen2.5-Max快速又准确:
您的团队处理客户请求共有3步:
数据收集(阶段A):每个请求需要5分钟。
处理(阶段B):每个请求需要10分钟。
验证(阶段C):每个请求花费8分钟。
团队当前按顺序操作,但您正在考虑并行工作流。如果每个阶段分配两个人,并允许并行工作流程,则每小时的产出将增加20%。然而,添加并行工作流在操作开销上要多花费15%。考虑到时间和成本,你是否应该使用并行工作流程来优化效率?
Qwen2.5-Max不到30秒就可以完成全部推理,将整体过程清晰分为5步:当前工作流分析、并行工作流分析、成本含义、成本效率权衡、结论。
最终很快得出结论:应该使用并行工作流程。
与同为非推理模型的DeepSeek-V3相比,Qwen2.5-Max的回答更简洁迅速。
亦或是让它生成一个由ASCII数字组成的旋转球体,离视角最近的数字是纯白的,最远的逐渐变成灰色,背景是黑色。
数单词中特定字母的数量更是不在话下。
如果你也想上手实测,Qwen2.5-Max已在Qwen Chat平台上线,可免费体验。
企业用户可以在阿里云百炼调用Qwen2.5-Max模型的API。
感兴趣的同学,速来尝鲜吧~
文章来自微信公众号 “ 量子位 ”,作者 明敏 克雷西
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0