杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

9268点击 2025-02-05 11:19

刚刚，大模型竞技场榜单上再添一款国产模型——

来自阿里，Qwen2.5-Max，超越了DeepSeek-V3，以总分1332的成绩位列总榜第七。

同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

特别是在编程、数学等方面表现格外突出，能够与满血o1、DeepSeek-R1并列第一。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

Chatbot Arena是由LMSYS Org推出的大模型性能测试平台，目前集成了190多种模型，采用模型两两组队交给用户盲测，根据真实对话体验对模型能力进行投票。

也正因此， Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。

在其新开的网页应用开发WebDev榜单上，Qwen2.5-Max也冲进了前十。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

对此lmsys官方评价说，中国AI正在快速缩小差距！

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

并且亲身使用过的网友表示，相比之下Qwen的表现更加稳定。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

还有人说，Qwen很快就会取代硅谷的所有普通模型。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

四种单项能力登顶

综合榜单前三名中第一、二名被谷歌Gemini家族包揽，GPT-4o和DeepSeek-R1并列第三。

Qwen2.5-Max则是和o1-preview一起并列第七名，稍逊于满血o1。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

接下来Qwen2.5-Max在各个单项中的表现。

在逻辑性较强的数学和代码任务当中，Qwen2.5-Max的成绩都超过了o1-mini，和满血o1以及DeepSeek-R1并列第一。

并且在数学榜单上并列第一的模型当中，Qwen2.5-Max是唯一一个非推理模型。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

如果仔细观察具体的对战记录，还可以发现，Qwen2.5-Max在代码能力上和满血o1进行PK的胜率达到了69%。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

复杂提示词任务中，Qwen2.5-Max和o1-preview并列第二，如果仅限英文则可以排到第一，和o1-preview、DeepSeek-R1等平起平坐。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

另外，Qwen2.5-Max的多轮对话能力也和DeepSeek-R1并列第一；长文本（不低于500tokens）则排行第三，超过了o1-preview。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

此外，阿里还在技术报告中展示了Qwen2.5-Max在一些经典榜单上的表现。

其中指令模型的对比当中，Qwen2.5-Max在Arena-Hard（近似人类偏好）、MMLU-Pro（大学水平知识）等基准当中，都和GPT-4o以及Claude 3.5-Sonnet处于近似或更高的水准。

在开源的基座模型对比当中，Qwen2.5-Max的成绩也全面超过了DeepSeek-V3，并遥遥领先于Llama 3.1-405B。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

至于base model，Qwen2.5-Max在大多数基准测试中，也都展现出了显著的优势（闭源模型base model无法访问，只能比较开源模型）。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

代码/推理突出，支持Artifacts

Qwen2.5-Max上线后，大量网友都来实测。

目前发现它在代码、推理等方面的表现突出。

比如让它用JavaScript写一个象棋游戏。

因为具备Artifacts功能，一句话开发的小游戏，可立刻开玩：

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

它生成的代码往往更简单易读好用。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

复杂提示词的推理问题上，Qwen2.5-Max快速又准确：

您的团队处理客户请求共有3步：

数据收集（阶段A）：每个请求需要5分钟。

处理（阶段B）：每个请求需要10分钟。

验证（阶段C）：每个请求花费8分钟。

团队当前按顺序操作，但您正在考虑并行工作流。如果每个阶段分配两个人，并允许并行工作流程，则每小时的产出将增加20%。然而，添加并行工作流在操作开销上要多花费15%。考虑到时间和成本，你是否应该使用并行工作流程来优化效率？

Qwen2.5-Max不到30秒就可以完成全部推理，将整体过程清晰分为5步：当前工作流分析、并行工作流分析、成本含义、成本效率权衡、结论。

最终很快得出结论：应该使用并行工作流程。

与同为非推理模型的DeepSeek-V3相比，Qwen2.5-Max的回答更简洁迅速。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

亦或是让它生成一个由ASCII数字组成的旋转球体，离视角最近的数字是纯白的，最远的逐渐变成灰色，背景是黑色。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

数单词中特定字母的数量更是不在话下。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

如果你也想上手实测，Qwen2.5-Max已在Qwen Chat平台上线，可免费体验。

企业用户可以在阿里云百炼调用Qwen2.5-Max模型的API。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

感兴趣的同学，速来尝鲜吧~

文章来自微信公众号 “ 量子位 ”，作者明敏克雷西

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

Qwen2.5-Max DeepSeek-V3 Qwen2.5 AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0