刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
7678点击    2025-06-17 11:31

在开源模型领域,DeepSeek 又带来了惊喜。


上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。


这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。


刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4


今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其中 DeepSeek-R1(0528)的成绩尤为引人瞩目


刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4


其中,在文本基准测试(Text)中,DeepSeek-R1(0528)整体排名第 6,在开放模型中排名第一。


刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4


具体到以下细分领域:


  • 在硬提示词(Hard Prompt)测试中排名第 4
  • 在编程(Coding)测试中排名第 2
  • 在数学(Math)测试中排名第 5
  • 在创意性写作(Creative Writing)测试中排名第 6
  • 在指令遵循(Intruction Fellowing)测试中排名第 9
  • 在更长查询(Longer Query)测试中排名第 8
  • 在多轮(Multi-Turn)测试中排名第 7


刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4


此外,在 WebDev Arena 平台上,DeepSeek-R1(0528)与 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等闭源大模型并列第一,在分数上更是超过了 Claude Opus 4。


刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4


WebDev Arena 是 LMArena 团队开发的实时 AI 编程竞赛平台,让各家大语言模型进行网页开发挑战,衡量的是人类对模型构建美观且功能强大的 Web 应用能力的偏好。


DeepSeek-R1(0528)表现出来的强大性能激起了更多人使用的欲望。


刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4


还有人表示,鉴于 Claude 长期以来一直是 AI 编程领域的基准,如今 DeepSeek-R1(0528)在性能上与 Claude Opus 相当,这是一个里程碑时刻,也是开源 AI 的关键时刻。


DeepSeek-R1(0528)在完全开放的 MIT 协议下提供了领先的性能,并能与最好的闭源模型媲美。虽然这一突破在 Web 开发中最为明显,但其影响可能延伸到更广泛的编程领域。


不过,原始性能并不能定义现实世界的表现。虽然 DeepSeek-R1(0528)在技术能力上可能与 Claude 相当,但其是否可以在日常工作流程中提供媲美 Claude 的用户体验,这些需要更多的实际验证。


刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4


高强度使用过 DeepSeek-R1(0528)的小伙伴,可以在评论区留言,谈一谈自己的体验感受。


参考链接:

https://lmarena.ai/leaderboard/text

https://x.com/lmarena_ai/status/1934650639906197871


文章来自于“机器之心”,作者“杜伟”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0