春节期间,互联网上最火的不是春晚小品,也不是春节档电影,而是 DeepSeek。

这匹来自中国的 AI 黑马,以极低的训练成本实现了媲美 OpenAI o1 的性能,凭借强大的中文能力、堪称赛博觉醒的顿悟时刻和秉持开源精神,迅速搅动了以 ChatGPT 为首的 AI 圈。

自家人出息了,家里的其他人肯定要撑场子,于是,在全国人民享受愉快假期的同时,程序员们又忙了起来。

随着腾讯云、秘塔 AI、阿里云、百度智能云和国家超算互联网平台纷纷宣布接入 DeepSeek,手机作为最常用的个人智能终端,也迎来了它的身影。

其中,动作最快的是华为。

话不多说,作为 DeepSeek 首次集成到智能手机的头马,我们第一时间进行了上手测试,来看看它的实际表现如何。


在将小艺助手升级到 11.2.10.310 版本后,DeepSeek 已正式出现在小艺助手的智能体广场中。

进入小艺助手 app 主界面,点击导航栏中的「发现」,就能一眼看见 DeepSeek 的存在,且从封面来看,目前接入的 DeepSeek 是 R1 的 Beta 版。


相比官方应用,华为小艺接入的 DeepSeek-R1 Beta 总体保持了小艺助手一贯的设计风格和逻辑,界面简洁直观,分为上下两部分。

上半部分是 DeepSeek-R1 Beta 的自我介绍,并展示了一些预设的常见问题,供首次使用者挑选尝试。而下半部分则是对话框,支持语音输入,用户的语音内容会自动转化为文字并即时发送,方便快捷。


▲ 左:小艺版 DeepSeek / 右:DeepSeek 官方应用

点击 DeepSeek-R1 Beta 的头像,可以进入详情页面,在这个页面中有更详细的介绍:

我是基于 DeepSeek 开源版本部署的智能体,旨在帮助鸿蒙用户获得深度思考体验。

除此之外,小艺版 DeepSeek-R1 Beta 只支持简单的设置,包括智能体音色、清除上下文和删除对话记录,这意味着你没有办法新开对话框,如果想重新开始,只能清除上下文以及删除对话记录。


▲ 最丰富的设置居然是小艺自带的音色

在详细测试开始前,我们还有一些注意事项和细节,需要你提前知道:

  • 华为小艺接入的 DeepSeek-R1 Beta 只在纯血鸿蒙版本的小艺助手中提供,鸿蒙 4.3 用户暂时无缘享受
  • 小艺版 DeepSeek 支持招牌功能深度思考,但不提供详细的思考过程
  • 小艺版 DeepSeek 目前在对话框中没有提供联网搜索功能的选项,但答案里有时会显示参考的在线网页
  • 小艺版 DeepSeek 在回答完问题后会给出一些拓展选项,以备用户进一步追问,这是官方应用中没有的
上下文长度略短,日常够用

衡量 AI 的性能,有一个重要因素——长上下文长度。

上下文长度(Context Length)指的是大语言模型在处理文本时,能够同时考虑和记住的文本长度。

例如,如果一个模型的上下文长度是 2048 个 token,那么在生成或理解文本时,它只能「看到」最多 2048 个 token 的信息,超出这个长度的信息则会被模型忽略或丢失。

换句话说,如果,上下文长度不够,可能聊着聊着,AI 就忘了你之前说过的话。

虽然小艺接入的 DeepSeek-R1 Beta 没有公开上下文长度的数据,但我们可以设计一个简单的办法进行初步测试。

我准备了《三国演义》的前三回,约一万五千字,将其输入到华为小艺接入的 DeepSeek-R1 中,并要求其输出最后一百个字。


重复了多次,华为小艺接入的 DeepSeek-R1 都提示:

稍等,稍等片刻再试试呢。

在将文章缩短到第一回,约四千五百个字的时候,依旧失败。

无奈之下,我换了一篇曾经撰写的新闻稿,并节选了约 700 字的内容,才最终得到了成功的输出。


这个长度基本足够日常简单问题的交流,但想要与其畅聊人生,恐怕是个容易失忆的哲学导师。

输出质量和满血版 R1 有差别吗

又到了大家喜闻乐见的环节,AI 发展至今,测试方法多种多样,我们选择了一系列的问题,从那些人类容易理解、但 AI 容易误会的问题,到日常需求的应答可行性,都进行了详细的测试。

作为曾经搞翻大半个 AI 圈的经典问题,「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经并入了常规测试环节。


▲ 左:小艺版 DeepSeek / 右:DeepSeek 官方应用

令人意外的是,在 Strawberry 里有几个 r 这个问题上,华为小艺接入的 DeepSeek-R1 Beta 居然翻车了,甚至在给出了参考来源的情况下,依旧给出了两个 r 的答案,并且在 r 出现的位置上也有错误。

而 DeepSeek 的官方应用则没有任何意外,在给出正确答案的同时也准确指出了 r 的位置。

除此之外,华为小艺接入的 DeepSeek 与官方应用相比,还有一个显著的不同——R1 模型的思考过程被隐藏了。

虽然这个过程在大多数时候并不干扰答案,但一个能够展示思考过程的 AI,显然让人更有信心,同时,如果用户希望调整问题,能够通过查看 AI 展示的思考逻辑来帮助理解,避免 AI 未能准确捕捉到用户的思路。


▲ 从官方应用提供的思考过程来看,有几个 r 依旧是个让 AI 纠结的问题

平时用惯了 DeepSeek 的官方应用,突然失去了思考过程让我觉得有些心里没底。

于是,我将电车难题交给了两个 DeepSeek,这个涉及道德伦理的经典思考题,考验其对复杂道德议题的理解深度,看看这个思考过程隐藏后,还能不能回答有条理的、考虑全面的答案,并避免我预设的「你怎么选」的坑。


在这个问题上,DeepSeek-R1 Beta 并没有出现差错,也没有掉进我设计的坑里,在回答中详细介绍了两个选择的后果,并分别在各种观点和视角下进行具体分析,提示无论做出怎么样的选择,都要认真思考其伦理含义和潜在影响及其后果。

简单的道德伦理题难不住它,就尝试一下更有难度的题,考察一下推理能力、判断力以及对逻辑关系的理解:

「有三个人站在一座桥的一端,他们需要去桥的对面,但桥只能承受两个人同时过桥,而且桥上只有一把手电筒。三个人的过桥速度不同:一个人过桥需要 1 分钟,另一个需要 2 分钟,最后一个需要 5 分钟。每次只有两个人可以一起过桥,而桥上必须有手电筒。问:怎么样才能让他们在最短时间内过桥?」

这个测试就比较有意思了,小艺接入的 DeepSeek-R1 Beta 得出来的结论是 12 分钟,这个答案与 ChatGPT 的结论相同,而 DeepSeek 官方 app 则得出了一个用时更短的答案,同时在思维逻辑上也给出了充足的辩论脉络。


▲ 左:小艺版 DeepSeek / 中:DeepSeek 官方应用 / 右:ChatGPT-4o

在测试完道德伦理、逻辑数学后,我们最后测试一个更贴近普通使用场景、但对于 AI 来说很难做到自然的测试——中文写作。

我设计了一个视频选题,并让小艺接入的 DeepSeek-R1 Beta 帮我输出一个简略的台词,兼顾画面设计的同时以小品形式来呈现华为 Mate X6 折叠屏的外观,看看在用户提出复合型任务要求的情况下,它的表现如何:

「我要制作一期华为 Mate X6 折叠屏的视频,展示折叠屏外观的同时进行中立评价,全片通过两人小品的形式呈现,请你帮我设计台词,要求台词诙谐有趣,并保持口语化,同时需要兼顾画面设计。」


小艺接入的 DeepSeek-R1 Beta 在短暂思考以后给了我一份完整的对话台词设计,从折叠屏的不同特点出发,共设计了四个场景以及一个结尾,整体结构还算完整,且台词口语化做得还不错,同时每句对白都给了相应的画面设计,美中不足就是有趣诙谐的内容略有欠缺,没有什么梗,但应对日常的文字处理工作基本没问题。

需要注意的是,如果不要求口语化,那它给出的回答用词过于板正严谨,还是有些 AI 味道。


总得来说,可能受制于发布速度、集成妥协等等因素,目前的小艺接入的 DeepSeek-R1 Beta 的上下文长度性能、回答准确度尚处于一个比较基础的状态,需要等待后续的迭代。

不过,考虑到目前 DeepSeek 官网及官方应用的连接条件实在糟糕,而其他各种云平台及本地部署对使用环境与门槛的要求又较为苛刻,在面对一些不那么复杂的问题时,直接使用华为小艺中接入的 DeepSeek 是个不错的选择。

ad1 webp
ad2 webp
ad1 webp
ad2 webp