刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

10262点击 2025-08-20 03:37

没等到Deepseek R2，DeepSeek悄悄更新了V 3.1。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

官方群放出的消息就提了一点，上下文长度拓展至128K。128K也是GPT-4o这一代模型的处理Token的长度。因此一开始，鲸哥以为从V3升级到V 3.1，以为是不大的升级，鲸哥体验下来还有惊喜。

01代码能力与前端审美提升

从开源社区Huggingface上传的模型版本看，模型尺寸达685B，支持 BF16、F8_E4M3、F32 等张量类型，平衡模型的计算精度和效率。

最惊喜的是代码能力提升明显，前端审美也有大幅度提升。我们先看V3.1在代码测试中的变现。

请设计并开发一款结合日历和待办事项（To-Do）的产品，其核心功能应包括：

任务分类与颜色标记：

用户能够创建不同类别的任务，并为每个类别分配独特的颜色。当任务被归类后，其在日历视图上应以相应的颜色进行标记，以便快速识别。

短期任务管理：

*   

完成标记：

 对于计划在特定日期完成的任务，用户应能将其标记为“已完成”。已完成的任务应在界面上以视觉方式（例如，划掉、变灰或显示完成图标）清晰区分。

*   

逾期处理：

 如果任务未在计划日期完成，系统应提供明确的视觉提示（例如，颜色变化、闪烁或标记为逾期），并允许用户选择将其延期至第二天或后续日期。

长期任务可视化：

 对于跨越多天的长期任务，系统应在日历视图上以连续的线条或色块进行标记，清晰展示其持续时间，并支持用户查看和编辑任务的起止日期。

说实话，整个产品的设计其实已经达到了一定的水准，准确理解Prompt，并且也没有什么交互Bug。相比Claude 3.7也并不逊色。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

Claude 3.7生成的日历代办事项

当然相比Claude 4.0和4.1的前端还有审美差距。

PS：鲸哥正在利用Claude 4.0做日历+To do的结合体，后续会发布出来，大家可以期待。

天气卡片案例测试

第二个案例能看出来更明显。这个案例是大家经常做测试的天气卡片Case。

创建一个包含 CSS 和 JavaScript 的单个 HTML 文件，以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件：风：（例如，移动的云朵、摇曳的树木或风线）雨：（例如，落下的雨滴、形成的水坑）晴：（例如，闪耀的光线、明亮的背景）雪：（例如，落下的雪花、积雪）并排显示所有天气卡片。卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法（例如，一个函数或一组按钮），以演示每种天气的动画。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

注：DeepSeek 新版 V3 模型的生成结果，右侧为 R1 的生成结果

这是新版V3.1生成的效果，是不是已经很美观了，而且还有降雨和太阳等动图效果，这就不只是拿得出手，还有些超出期待了。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

我们看GPT-5的演示效果，其实也还行，但是雪花和大风的演示图形有点Bug，以及没有很多天气信息展示。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

流程图与复杂案例测试

接着我们测试一个考验DPSK逻辑和构图的案例，要求V3.1创建一个流程图，展示用户、Agent、LLM和MCP Server之间的交互。

V3.1使用Mermaid流程图来表示这一过程，大体过程展示出来了，但是仿佛又缺乏些细节。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

不过好事就是有些流程图、逻辑图以后可以教给DeepSeek做了，没有思维脑图产品做的细节，但胜在基础作品直出和有美观度渲染。

继续来做一个更复杂的Case，这是马斯克点赞的Grok 4案例：“3D线框网络与能量脉冲动画”。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

DeepSeek V3.1使用了CSS 3D变换来模拟3D效果，纯JavaScript处理交互逻辑，不需要任何外部库。

但不得不说，V3.1在做这种更复杂的案例时，略微有些力不从心。没有做出立体状，效果也不太酷炫。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

感觉还是上下文太短，现在很多大模型都已经经200K，V3.1现在处理复杂任务还有距离。

GPT-5生成分效果还可以，用能量球形式展现，脉冲效果也有一定体现。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

02逻辑推理能力进步

虽然是非推理模型，但V3.1的逻辑推理也有一定的进步，这道题的回答中可以看到进步：

单选题
某办公室甲、乙、丙、丁四人对本办公室当选先进工作者的职工进行如下预测：甲：乙和丙要么都当选，要么都落选。乙：最多只有2人当选。丙：我不可能当选。丁：你们中肯定有人的预测是错的。结果发现四个人中只有一个人说对了，问以下哪项判断是正确的？（）
A 甲当选了
B 乙当选了
C 丙未当选
D 丁未当选

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

豆包这题思考过程对，但是给的答案选项错了。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

DeepSeek V 3.1的幻觉率依然很高，让以吴晓波风格写大疆，引用了几本不存在的书作为内容源。

刚刚DeepSeek发布3.1版本，实测有进步，在编程等个别场景可硬刚GPT-5

DeepSeek V3.1这波更新不是很大，胜在有进步和又降价。

尽管目前关于DeepSeek R2的传闻很多，其发布日期比传言中的日子，已经滞后很多，但DeepSeek每次更新还是有稳定的进步，R2仍然值得期待。

文章来自微信公众号 “ 鲸选AI ”，作者鲸哥

关键词: AI新闻 , DeepSeek , DeepSeek V3.1 , DeepSeek 3.1 , Deepseek R2

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0