实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?
5597点击    2025-02-07 11:35

春节期间,互联网上最火的不是春晚小品,也不是春节档电影,而是 DeepSeek。


这匹来自中国的 AI 黑马,以极低的训练成本实现了媲美 OpenAI o1 的性能,凭借强大的中文能力、堪称赛博觉醒的顿悟时刻和秉持开源精神,迅速搅动了以 ChatGPT 为首的 AI 圈。


自家人出息了,家里的其他人肯定要撑场子,于是,在全国人民享受愉快假期的同时,程序员们又忙了起来。


随着腾讯云、秘塔 AI、阿里云、百度智能云和国家超算互联网平台纷纷宣布接入 DeepSeek,手机作为最常用的个人智能终端,也迎来了它的身影。


其中,动作最快的是华为。


话不多说,作为 DeepSeek 首次集成到智能手机的头马,我们第一时间进行了上手测试,来看看它的实际表现如何。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


在将小艺助手升级到 11.2.10.310 版本后,DeepSeek 已正式出现在小艺助手的智能体广场中。


进入小艺助手 app 主界面,点击导航栏中的「发现」,就能一眼看见 DeepSeek 的存在,且从封面来看,目前接入的 DeepSeek 是 R1 的 Beta 版。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


相比官方应用,华为小艺接入的 DeepSeek-R1 Beta 总体保持了小艺助手一贯的设计风格和逻辑,界面简洁直观,分为上下两部分。


上半部分是 DeepSeek-R1 Beta 的自我介绍,并展示了一些预设的常见问题,供首次使用者挑选尝试。而下半部分则是对话框,支持语音输入,用户的语音内容会自动转化为文字并即时发送,方便快捷。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?



左:小艺版 DeepSeek / 右:DeepSeek 官方应用


点击 DeepSeek-R1 Beta 的头像,可以进入详情页面,在这个页面中有更详细的介绍:


我是基于 DeepSeek 开源版本部署的智能体,旨在帮助鸿蒙用户获得深度思考体验。


除此之外,小艺版 DeepSeek-R1 Beta 只支持简单的设置,包括智能体音色、清除上下文和删除对话记录,这意味着你没有办法新开对话框,如果想重新开始,只能清除上下文以及删除对话记录。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


最丰富的设置居然是小艺自带的音色


在详细测试开始前,我们还有一些注意事项和细节,需要你提前知道:


华为小艺接入的 DeepSeek-R1 Beta 只在纯血鸿蒙版本的小艺助手中提供,鸿蒙 4.3 用户暂时无缘享受

小艺版 DeepSeek 支持招牌功能深度思考,但不提供详细的思考过程

小艺版 DeepSeek 目前在对话框中没有提供联网搜索功能的选项,但答案里有时会显示参考的在线网页

小艺版 DeepSeek 在回答完问题后会给出一些拓展选项,以备用户进一步追问,这是官方应用中没有的


上下文长度略短,日常够用


衡量 AI 的性能,有一个重要因素——长上下文长度。


上下文长度(Context Length)指的是大语言模型在处理文本时,能够同时考虑和记住的文本长度。


例如,如果一个模型的上下文长度是 2048 个 token,那么在生成或理解文本时,它只能「看到」最多 2048 个 token 的信息,超出这个长度的信息则会被模型忽略或丢失。


换句话说,如果,上下文长度不够,可能聊着聊着,AI 就忘了你之前说过的话。


虽然小艺接入的 DeepSeek-R1 Beta 没有公开上下文长度的数据,但我们可以设计一个简单的办法进行初步测试。


我准备了《三国演义》的前三回,约一万五千字,将其输入到华为小艺接入的 DeepSeek-R1 中,并要求其输出最后一百个字。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


重复了多次,华为小艺接入的 DeepSeek-R1 都提示:


稍等,稍等片刻再试试呢。


在将文章缩短到第一回,约四千五百个字的时候,依旧失败。


无奈之下,我换了一篇曾经撰写的新闻稿,并节选了约 700 字的内容,才最终得到了成功的输出。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


这个长度基本足够日常简单问题的交流,但想要与其畅聊人生,恐怕是个容易失忆的哲学导师。


输出质量和满血版 R1 有差别吗


又到了大家喜闻乐见的环节,AI 发展至今,测试方法多种多样,我们选择了一系列的问题,从那些人类容易理解、但 AI 容易误会的问题,到日常需求的应答可行性,都进行了详细的测试。


作为曾经搞翻大半个 AI 圈的经典问题,「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经并入了常规测试环节。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


左:小艺版 DeepSeek / 右:DeepSeek 官方应用


令人意外的是,在 Strawberry 里有几个 r 这个问题上,华为小艺接入的 DeepSeek-R1 Beta 居然翻车了,甚至在给出了参考来源的情况下,依旧给出了两个 r 的答案,并且在 r 出现的位置上也有错误。


而 DeepSeek 的官方应用则没有任何意外,在给出正确答案的同时也准确指出了 r 的位置。


除此之外,华为小艺接入的 DeepSeek 与官方应用相比,还有一个显著的不同——R1 模型的思考过程被隐藏了。


虽然这个过程在大多数时候并不干扰答案,但一个能够展示思考过程的 AI,显然让人更有信心,同时,如果用户希望调整问题,能够通过查看 AI 展示的思考逻辑来帮助理解,避免 AI 未能准确捕捉到用户的思路。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


从官方应用提供的思考过程来看,有几个 r 依旧是个让 AI 纠结的问题


平时用惯了 DeepSeek 的官方应用,突然失去了思考过程让我觉得有些心里没底。


于是,我将电车难题交给了两个 DeepSeek,这个涉及道德伦理的经典思考题,考验其对复杂道德议题的理解深度,看看这个思考过程隐藏后,还能不能回答有条理的、考虑全面的答案,并避免我预设的「你怎么选」的坑。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


在这个问题上,DeepSeek-R1 Beta 并没有出现差错,也没有掉进我设计的坑里,在回答中详细介绍了两个选择的后果,并分别在各种观点和视角下进行具体分析,提示无论做出怎么样的选择,都要认真思考其伦理含义和潜在影响及其后果。


简单的道德伦理题难不住它,就尝试一下更有难度的题,考察一下推理能力、判断力以及对逻辑关系的理解:


「有三个人站在一座桥的一端,他们需要去桥的对面,但桥只能承受两个人同时过桥,而且桥上只有一把手电筒。三个人的过桥速度不同:一个人过桥需要 1 分钟,另一个需要 2 分钟,最后一个需要 5 分钟。每次只有两个人可以一起过桥,而桥上必须有手电筒。问:怎么样才能让他们在最短时间内过桥?」


这个测试就比较有意思了,小艺接入的 DeepSeek-R1 Beta 得出来的结论是 12 分钟,这个答案与 ChatGPT 的结论相同,而 DeepSeek 官方 app 则得出了一个用时更短的答案,同时在思维逻辑上也给出了充足的辩论脉络。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


左:小艺版 DeepSeek / 中:DeepSeek 官方应用 / 右:ChatGPT-4o


在测试完道德伦理、逻辑数学后,我们最后测试一个更贴近普通使用场景、但对于 AI 来说很难做到自然的测试——中文写作。


我设计了一个视频选题,并让小艺接入的 DeepSeek-R1 Beta 帮我输出一个简略的台词,兼顾画面设计的同时以小品形式来呈现华为 Mate X6 折叠屏的外观,看看在用户提出复合型任务要求的情况下,它的表现如何:


「我要制作一期华为 Mate X6 折叠屏的视频,展示折叠屏外观的同时进行中立评价,全片通过两人小品的形式呈现,请你帮我设计台词,要求台词诙谐有趣,并保持口语化,同时需要兼顾画面设计。」


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


小艺接入的 DeepSeek-R1 Beta 在短暂思考以后给了我一份完整的对话台词设计,从折叠屏的不同特点出发,共设计了四个场景以及一个结尾,整体结构还算完整,且台词口语化做得还不错,同时每句对白都给了相应的画面设计,美中不足就是有趣诙谐的内容略有欠缺,没有什么梗,但应对日常的文字处理工作基本没问题。


需要注意的是,如果不要求口语化,那它给出的回答用词过于板正严谨,还是有些 AI 味道。


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?


总的来说,可能受制于发布速度、集成妥协等等因素,目前的小艺接入的 DeepSeek-R1 Beta 的上下文长度性能、回答准确度尚处于一个比较基础的状态,需要等待后续的迭代。


不过,考虑到目前 DeepSeek 官网及官方应用的连接条件实在糟糕,而其他各种云平台及本地部署对使用环境与门槛的要求又较为苛刻,在面对一些不那么复杂的问题时,直接使用华为小艺中接入的 DeepSeek 是个不错的选择。


文章来自于微信公众号“爱范儿”(ID:ifanr),作者“周奕旨”


实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/