没等到Deepseek R2,DeepSeek悄悄更新了V 3.1。
官方群放出的消息就提了一点,上下文长度拓展至128K。128K也是GPT-4o这一代模型的处理Token的长度。因此一开始,鲸哥以为从V3升级到V 3.1,以为是不大的升级,鲸哥体验下来还有惊喜。
01代码能力与前端审美提升
从开源社区Huggingface上传的模型版本看,模型尺寸达685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型的计算精度和效率。
最惊喜的是代码能力提升明显,前端审美也有大幅度提升。我们先看V3.1在代码测试中的变现。
请设计并开发一款结合日历和待办事项(To-Do)的产品,其核心功能应包括:
任务分类与颜色标记:
用户能够创建不同类别的任务,并为每个类别分配独特的颜色。当任务被归类后,其在日历视图上应以相应的颜色进行标记,以便快速识别。
短期任务管理:
*
完成标记:
对于计划在特定日期完成的任务,用户应能将其标记为“已完成”。已完成的任务应在界面上以视觉方式(例如,划掉、变灰或显示完成图标)清晰区分。
*
逾期处理:
如果任务未在计划日期完成,系统应提供明确的视觉提示(例如,颜色变化、闪烁或标记为逾期),并允许用户选择将其延期至第二天或后续日期。
长期任务可视化:
对于跨越多天的长期任务,系统应在日历视图上以连续的线条或色块进行标记,清晰展示其持续时间,并支持用户查看和编辑任务的起止日期。
说实话,整个产品的设计其实已经达到了一定的水准,准确理解Prompt,并且也没有什么交互Bug。相比Claude 3.7也并不逊色。
Claude 3.7生成的日历代办事项
当然相比Claude 4.0和4.1的前端还有审美差距。
PS:鲸哥正在利用Claude 4.0做日历+To do的结合体,后续会发布出来,大家可以期待。
天气卡片案例测试
第二个案例能看出来更明显。这个案例是大家经常做测试的天气卡片Case。
创建一个包含 CSS 和 JavaScript 的单个 HTML 文件,以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件:风:(例如,移动的云朵、摇曳的树木或风线)雨:(例如,落下的雨滴、形成的水坑)晴:(例如,闪耀的光线、明亮的背景)雪:(例如,落下的雪花、积雪)并排显示所有天气卡片。卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气的动画。
注:DeepSeek 新版 V3 模型的生成结果,右侧为 R1 的生成结果
这是新版V3.1生成的效果,是不是已经很美观了,而且还有降雨和太阳等动图效果,这就不只是拿得出手,还有些超出期待了。
我们看GPT-5的演示效果,其实也还行,但是雪花和大风的演示图形有点Bug,以及没有很多天气信息展示。
流程图与复杂案例测试
接着我们测试一个考验DPSK逻辑和构图的案例,要求V3.1创建一个流程图,展示用户、Agent、LLM和MCP Server之间的交互。
V3.1使用Mermaid流程图来表示这一过程,大体过程展示出来了,但是仿佛又缺乏些细节。
不过好事就是有些流程图、逻辑图以后可以教给DeepSeek做了,没有思维脑图产品做的细节,但胜在基础作品直出和有美观度渲染。
继续来做一个更复杂的Case,这是马斯克点赞的Grok 4案例:“3D线框网络与能量脉冲动画”。
DeepSeek V3.1使用了CSS 3D变换来模拟3D效果,纯JavaScript处理交互逻辑,不需要任何外部库。
但不得不说,V3.1在做这种更复杂的案例时,略微有些力不从心。没有做出立体状,效果也不太酷炫。
感觉还是上下文太短,现在很多大模型都已经经200K,V3.1现在处理复杂任务还有距离。
GPT-5生成分效果还可以,用能量球形式展现,脉冲效果也有一定体现。
02逻辑推理能力进步
虽然是非推理模型,但V3.1的逻辑推理也有一定的进步,这道题的回答中可以看到进步:
单选题
某办公室甲、乙、丙、丁四人对本办公室当选先进工作者的职工进行如下预测:甲:乙和丙要么都当选,要么都落选。乙:最多只有2人当选。丙:我不可能当选。丁:你们中肯定有人的预测是错的。结果发现四个人中只有一个人说对了,问以下哪项判断是正确的?()
A 甲当选了
B 乙当选了
C 丙未当选
D 丁未当选
豆包这题思考过程对,但是给的答案选项错了。
DeepSeek V 3.1的幻觉率依然很高,让以吴晓波风格写大疆,引用了几本不存在的书作为内容源。
DeepSeek V3.1这波更新不是很大,胜在有进步和又降价。
尽管目前关于DeepSeek R2的传闻很多,其发布日期比传言中的日子,已经滞后很多,但DeepSeek每次更新还是有稳定的进步,R2仍然值得期待。
文章来自微信公众号 “ 鲸选AI ”,作者 鲸哥
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0