刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5
7411点击    2025-08-20 03:37

刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


没等到Deepseek R2,DeepSeek悄悄更新了V 3.1。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


官方群放出的消息就提了一点,上下文长度拓展至128K。128K也是GPT-4o这一代模型的处理Token的长度。因此一开始,鲸哥以为从V3升级到V 3.1,以为是不大的升级,鲸哥体验下来还有惊喜。


01代码能力与前端审美提升


从开源社区Huggingface上传的模型版本看,模型尺寸达685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型的计算精度和效率。


最惊喜的是代码能力提升明显,前端审美也有大幅度提升。我们先看V3.1在代码测试中的变现。


请设计并开发一款结合日历和待办事项(To-Do)的产品,其核心功能应包括:


任务分类与颜色标记:

用户能够创建不同类别的任务,并为每个类别分配独特的颜色。当任务被归类后,其在日历视图上应以相应的颜色进行标记,以便快速识别。

短期任务管理:

*

完成标记:

对于计划在特定日期完成的任务,用户应能将其标记为“已完成”。已完成的任务应在界面上以视觉方式(例如,划掉、变灰或显示完成图标)清晰区分。

*

逾期处理:

如果任务未在计划日期完成,系统应提供明确的视觉提示(例如,颜色变化、闪烁或标记为逾期),并允许用户选择将其延期至第二天或后续日期。

长期任务可视化:

对于跨越多天的长期任务,系统应在日历视图上以连续的线条或色块进行标记,清晰展示其持续时间,并支持用户查看和编辑任务的起止日期。


说实话,整个产品的设计其实已经达到了一定的水准,准确理解Prompt,并且也没有什么交互Bug。相比Claude 3.7也并不逊色。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


Claude 3.7生成的日历代办事项


当然相比Claude 4.0和4.1的前端还有审美差距。


PS:鲸哥正在利用Claude 4.0做日历+To do的结合体,后续会发布出来,大家可以期待。


天气卡片案例测试


第二个案例能看出来更明显。这个案例是大家经常做测试的天气卡片Case。


创建一个包含 CSS 和 JavaScript 的单个 HTML 文件,以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件:风:(例如,移动的云朵、摇曳的树木或风线)雨:(例如,落下的雨滴、形成的水坑)晴:(例如,闪耀的光线、明亮的背景)雪:(例如,落下的雪花、积雪)并排显示所有天气卡片。卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气的动画。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


注:DeepSeek 新版 V3 模型的生成结果,右侧为 R1 的生成结果


这是新版V3.1生成的效果,是不是已经很美观了,而且还有降雨和太阳等动图效果,这就不只是拿得出手,还有些超出期待了。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


我们看GPT-5的演示效果,其实也还行,但是雪花和大风的演示图形有点Bug,以及没有很多天气信息展示。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


流程图与复杂案例测试


接着我们测试一个考验DPSK逻辑和构图的案例,要求V3.1创建一个流程图,展示用户、Agent、LLM和MCP Server之间的交互。


V3.1使用Mermaid流程图来表示这一过程,大体过程展示出来了,但是仿佛又缺乏些细节。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


不过好事就是有些流程图、逻辑图以后可以教给DeepSeek做了,没有思维脑图产品做的细节,但胜在基础作品直出和有美观度渲染。


继续来做一个更复杂的Case,这是马斯克点赞的Grok 4案例:“3D线框网络与能量脉冲动画”。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


DeepSeek V3.1使用了CSS 3D变换来模拟3D效果,纯JavaScript处理交互逻辑,不需要任何外部库。


但不得不说,V3.1在做这种更复杂的案例时,略微有些力不从心。没有做出立体状,效果也不太酷炫。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


感觉还是上下文太短,现在很多大模型都已经经200K,V3.1现在处理复杂任务还有距离。


GPT-5生成分效果还可以,用能量球形式展现,脉冲效果也有一定体现。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


02逻辑推理能力进步


虽然是非推理模型,但V3.1的逻辑推理也有一定的进步,这道题的回答中可以看到进步:


单选题
某办公室甲、乙、丙、丁四人对本办公室当选先进工作者的职工进行如下预测:甲:乙和丙要么都当选,要么都落选。乙:最多只有2人当选。丙:我不可能当选。丁:你们中肯定有人的预测是错的。结果发现四个人中只有一个人说对了,问以下哪项判断是正确的?()
A 甲当选了
B 乙当选了
C 丙未当选
D 丁未当选


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


豆包这题思考过程对,但是给的答案选项错了。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


DeepSeek V 3.1的幻觉率依然很高,让以吴晓波风格写大疆,引用了几本不存在的书作为内容源。


刚刚DeepSeek发布3.1版本,实测有进步,在编程等个别场景可硬刚GPT-5


DeepSeek V3.1这波更新不是很大,胜在有进步和又降价。


尽管目前关于DeepSeek R2的传闻很多,其发布日期比传言中的日子,已经滞后很多,但DeepSeek每次更新还是有稳定的进步,R2仍然值得期待。



文章来自微信公众号 “ 鲸选AI ”,作者 鲸哥

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0