2016 年冬天,荣耀发布了第一代荣耀 Magic 手机和 MagicUI 系统,喊出「致未来」的口号,表示要打开手机的「智慧」之门。
第一代 Magic 手机搭载了 Magic Live 智慧引擎,实现了很多智能推荐能力,比如当有人问「你在哪」,输入法可以自动获取当前位置,一键回复。现在回想,那就是「AI 手机」的雏型。
那时,OpenAI 才成立刚满一年,还只是一家专注于 AI 研究的非营利机构,很少有人会预料到,8 年后的今天,AI 会成为计算机领域最前沿、最重要的关键词。现在,所有的智能手机厂商,都在基于大模型技术,重新思考手机的智能变革。
经过 8 年时间,MagicOS 也来到了自己的 9.0 版本。8 年里,荣耀积累了大量手机智能化的经验,对智能感知、推荐,多模态交互,自主执行等等问题,都有了更深的理解。
从最初的 MagicUI,到 7.0 整合各项能力推出平台级 AI,蜕变为 MagicOS,以及 8.0 引入大模型能力后,为行业首次带来了基于意图识别的人机交互革新,荣耀走过了一条很长的路。而通过 MagicOS 9.0,荣耀希望打造一个真正「有灵魂」的全场景 AI 操作系统,不只有大模型作为 AI 的大脑,还有丰富的感官,以及强壮的手脚。
对 AI 来说,模型就像是「大脑」,具备核心的理解、组织、生成能力。但它仍然需要「耳」、「口」,作为信息输入输出的界面。
而大部分 AI 助手产品,都只具备最基本的输入输出能力,它们的界面往往只是一个聊天框,接收信息的方式是被动的,输出信息的方式是单一的。
这导致用户使用这些产品时负担很重,输入的过程需要自己组织语言写提示词,输出之后又要自己动手把 AI 给到的结果进行处理后才能使用。大部分 AI 大模型都有服务接口可以用于自动化处理,但那需要专业的代码才能实现,普通用户根本无法做到。
所以说,想要让 AI 变得真正智能且好用,就必须增加 AI 的「主动感知能力」。
这正是手机厂商所擅长的技术点。在大模型时代到来之前,各家手机厂商已经做过很多基于手机端侧信息的「智能推荐」功能。
其中,荣耀更是一直将「智能推荐」作为核心建设重点。尤其在 MagicOS 7.0 上,荣耀凭借 Magic Live 智慧引擎的全面升级,不仅建立了对「环境」与「人」的精准感知,更通过 Magic Live 对系统方方面面的使能,带来了「懂你所需的主动服务」。比如当你走到地铁站时,系统会自动感知你有乘车需求,以卡片形式主动弹出乘车码;到了上下班时间会主动提醒考勤打卡。
这是 7.0 之前,MagicOS 核心感知逻辑,即基于时间、日程,以及「地理围栏」技术来感知用户所处场景,分析用户习惯构建画像……这部分技术本身并不复杂,就是一系列的客观条件判断,但如何把颗粒度做细,真正契合进场景,依然需要结合用户习惯,进行细致的打磨。
从 MagicOS 8.0 开始,Magic Live 智慧引擎的感知能力上升到了大模型层面,基于 AI 图像语义理解的 Magic 文本升级,可一键识别图片中的电话、地址、航班号、快递号等文本信息,提供一步直达的关联服务,如快递可一键查询,地址可直接导航。荣耀将这部分感知能力与「任意门」功能结合,实现了一系列快捷操作。
而到了 MagicOS 9.0,荣耀则将意图识别的能力带到了 AI 的交互层,它能够将自己感知到的位置、时间、日程等信息,作为用户指令的前置判断条件,建立更完善的个人知识库,实现「猜你所想,懂你所需」。
比如当用户向 MagicOS 发出指令说「先到超市买东西,再回家」时,MagicOS 既能通过语义理解「超市」、「家」的含义,又能调用用户的个人知识库,拉起地图软件自动导航到最常去的超市,并回家。
这就是 MagicOS 打造了 8 年之久的 Magic Live 智慧引擎,它能够对环境、场景,用户意图进行全面的感知分析,建立起一套个性化的「个人知识库」,将这些知识用于各种应用场景的前置判断。这意味着不同的人向 YOYO 发出同一指令、问题,YOYO 会给到不同的回答,这与当下任何 AI 助手服务都不一样。通过不断进化的 Magic Live 智慧引擎,荣耀 MagicOS 为 AI 增加了更多「感觉器官」,实现了个性化的智能。
与此同时,MagicOS 的「大脑」,即核心的魔法大模型也在不断升级,在 9.0 上,得益于全新魔法大模型家族的加持,Magic Live 智慧引擎的能力再次得到了巨大提升,可感知的场景覆盖从 40 个提升至 60 个,意图决策场景则从 100 个上升到 600 个,用户理解的类别从 600 升至 950 项。
当然,让 AI 具备全天候不间断的「感知能力」,也一定会带来隐私相关的风险担忧。这个问题其实自 Magic 系列手机诞生之初就一直存在,荣耀也做了很多配套的风险管理建设。在 MagicOS 9.0 上,所有个人化记忆、知识库的数据都会在端侧储存,杜绝一切泄漏风险,且保证用户可控、可查、可删。
针对这一问题,荣耀产品线总裁方飞在接受采访时表示:「我们有五项设计原则,最小化、透明可控、身份匿名、优先端侧处理、安全保护等,这五个核心原则一直指导着我们在整个个人隐私和数据保护方面的耕耘,因为 AI 部分的共性话题就是个人数据、个人隐私。」
除此之外,在端侧大模型运行的功耗问题上,荣耀也考虑到了潜在的续航影响。全新 30 亿参数端侧语言大模型,相较上一代操作系统发布的 70 亿参数自研魔法端侧大模型,功耗大幅降低了 80%,出词效率提升了 500%。在采访中,方飞同样对荣耀的这部分表现表示了充足的自信:「大模型对终端厂家最大的挑战是如何高效调用,包括整个功耗、性能如何达到最优,而这个正是荣耀非常擅长的,我们长期从事底层的硬件软件开发。」
通过这一套感知智慧引擎,MagicOS 9.0 具备了对用户意图全面的感知、学习能力,为 AI 打造了一套更敏锐的「感受器官」。这样的 AI 在处理用户的各种指令之前,已经有了一个完备的「语境」,最终减轻用户的输入负担,且可以更主动地进行服务唤起,建立起语境。
下一步就是革命交互。
AI 落地应用的核心难题,是交互。
自智能手机诞生,「触控」成为当代最重要的人机交互方式开始,就不断有企业宣称要启动下一轮交互革命。新一轮交互革命围绕着「自然语言」展开,从手机自身内置的语音助手,到只能语音交互的智能音箱,再到以聊天机器人形式出现的大模型 AI 助手……核心就是让用户用自然语言进行输入。
但经历了这么多年,企业和用户都逐渐发现,尽管自然语言是门槛最低,人人都会的输入方式,但它并非适配所有的场景。语音输入有时不够准确,以及很多时候我们也并不方便开口说话,文字输入则又需要用户有组织语言编写提示词的能力,这并非人人具备。
说到底,无论是单纯的触控,还是单纯的语音,都是单一的交互方式,如果我们只是想暂停音乐,那用手按一下「暂停键」肯定比语音喊暂停要方便;但如果是要找一个很复杂,甚至我们自己都不知道在哪的功能,此时如果手机能理解我们的语音指令就会更好。
所以,AI 大模型既然具备多模态的理解能力,AI 交互的输入输出也应该变得更加「立体」。不只局限于语音、文字、插入附件,而是应该进一步增加对用户当前所处「状态」的理解,把最方便的交互方式推送到用户眼前。
比如在手机上的 AI,就应当尝试理解手机屏幕上正在显示的内容,而不是让用户重复地输入。所以今年开始,大多手机厂商都开始加码 AI「理解屏幕」的能力,利用大模型的多模态能力,直接针对屏上显示的内容展开功能。包括圈选、搜索,这些也是过去 MagicOS 8.0 就已经实现的功能。
在 MagicOS 9.0 上,荣耀最大的革新在于推出了 YOYO 智能体。YOYO 和过去语音助手最大的区别就在于,它是一个真正时刻处于待命状态的多模态助手。它不仅可以回应用户的语音指令,更是时刻保持着感知状态,当用户唤醒 YOYO 的时候,它已经把所有的前置信息整合为了语境,能够提前分析用户的习惯,预测意图,让整个交互从以前的被动输入,变成了类人的自然场景交互。
比如你可以让 YOYO 帮你点个咖啡。其他大部分大模型助手此时大概率会给你输出关于点餐的各种细节,在哪个平台点、选哪一家店的哪些具体餐品……但对 YOYO 来说,你平时的习惯已经成为了它的记忆,储存在你的「个人知识库」里,它可以结合当下的时间、所处的位置,直接给到一个你很大概率想要的选项,可以自动进入外卖 APP 找到店铺、选择餐品后下单。
当然,这里不是说 YOYO 能准确预测你想要的一切,但它能基于知识库和环境感知,给到一个更大概率符合你需要的选项,如果这个选项在 70% 的场景下正确,那就可以帮你节省 70% 的输入负担。而这个学习和感知的过程是持续进行的,YOYO 能不断在使用中自我迭代。
在 MagicOS 9.0 上,YOYO 智能体已经能完成 600 项需求意图理解、950 项个人习惯记忆、270 项复杂任务规划,900 项自动执行……就是说,在和 YOYO 交互的过程中,用户是「口手结合」的。通过语音指令,它可以把你带到正确的界面下,之后立刻可以通过触控来更高效地调整细节,有时触控到一半,碰到适合用语音交互的场景,又可以立刻用语音来解决。
而且,因为智能体拥有「理解用户意图」的能力,这意味着用户有时候不需要有明确的指令,而是可以说出一些模糊的想法,通过 AI 引擎来提供服务的推荐,完成复杂任务。
就比如同样是在点餐的场景下,你甚至不需要发出「点咖啡」这个指令,而是可以模糊地表达「我困了,帮我点个喝的」,YOYO 也能从语义里理解你需要的是咖啡,并基于你的「个人知识库」,从你最常喝的咖啡品牌点你常喝的那一款咖啡。即便碰到了无法一次完成理解的场景,YOYO 也能够进一步就细节进行追问,就是说与 AI 智能体的交互不再只有「成功」和「失败」两个选项,而是像真人一样,可以通过持续的双向对话,一点点接近你想要的目标。
总之,下一代 AI 界面的核心就在于「立体」。它可能要用到语音、用到相机,可能要直接识别屏幕,也会有滑动屏幕,点击按钮……但这些交互都不是独立存在,而是流动的,用户可以根据需要随时切换到更高效的交互方式上,而智能体要做的,就是保持「待命」的状态,并且不断完善和增强自己的多模态信息处理能力。
今天大部分的手机搭载的大模型 AI,大多已经能与厂商的一方 APP 紧密配合工作,但更大的挑战在于,如何接入第三方生态。
iPhone 上搭载的 Apple Intelligence,就在这方面遇到不小的问题。它可以读取 iMessage 的聊天内容、iPhone 自带的通讯录来构建知识库,比如女朋友昨天跟你说过今天要记得买一袋面包,Apple Intelligence 就可以把它转化为个人知识库内容,在你问它今天要做什么的时告诉你记得买面包。但如果这个对话发生在微信等第三方聊天软件上,Apple Intelligence 就无法将它转化为个人知识库内容。
如果说 AI 的核心模型是「大脑」,感知和交互界面是「眼耳口鼻」,但最终,想要为用户真正「办成事」,还需要强壮的手脚。今天大部分 AI 助手,在接到用户指令后,都只能以文字、图片形式输出一系列「方法」,最后的执行这一步依然要用户自己去做。
想要改变这一点,荣耀 AI 战略的最后一块拼图,就在于「执行能力」。
想要让 AI 实现自动执行,当然就需要打造一个跨系统、跨设备、端云协同,具备流转能力的平台级 AI。如果让更多服务都接入到智能体,用户在发出指令,AI 理解后,就能直接调用对应的服务接口,自动完成最后一步的「操作」。
但想要让 AI 接入所有的第三方服务,在今天看起来还有点遥远,是一个理想。所以目前荣耀所做的,就是通过纯视觉方案,来实现 AI 的「代理操作」。简单来说,就是 AI 可以通过模拟用户的触控交互,执行用户的指令。比如在点餐的时候,实际上 YOYO 并没有直接与外卖 APP 的接口对接,而是通过模拟用户的「搜索店铺」、「选择餐品」、「选择定制化选项」、「下单」这一系列操作实现的。
纯视觉的执行方案,就像是手机里有一个和用户一样的智能体,它不只是能理解语音、文字、图像等多模态信息,还能够理解手机 APP 的功能和交互,能够像人一样在菜单点选按钮、滑动屏幕。
在发布会演示上,荣耀CEO赵明演示了一段智能体帮忙点咖啡的功能,智能体在点开外卖 APP 后,首先弹出了一个广告,而在没有任何预设的情况下,YOYO 智能体识别出了这是广告,并点击了关闭键,继续执行下一步买咖啡的任务,每一步都和正常用户的操作一样。
这意味着,MagicOS 即便在第三方 APP 零适配的前提下,也能够实现自主执行,这保证了当下的用户也能立刻用上 YOYO,真正地在实际场景里解决问题。
对荣耀来说,打造一个 AI OS 并不是大模型风潮后定下的短期目标,Magic 系列从 8 年前启动之初,就开始了这场面向未来的漫长征程。在接受采访时方飞坦诚表示:「MagicOS 8.0 的时候我们发了一个 7B 的端侧魔法大模型,发完之后发现使用频率并不是很高,所以后来我们通过研讨,发现 AI 时代不是说做怎样的 AI 技术,而是要做什么样的场景,能够真正帮助消费者解决问题。」
很显然,这次基于纯视觉,即便零适配也可以完成任务的 YOYO 智能体,就是这一思路的最好体现。
但与此同时,荣耀也积极开放智能体能力。在发布会上,荣耀宣布向生态合作伙伴推出面向智能体的新一代智慧能力开放架构,并宣布正式上线荣耀智能体商店。
而未来,通过开放生态的开发接入,这一切会变得更加简单快捷。
在生态互联的建设上,荣耀 MagicOS 一直走在行业的前列。MagicOS 7.0 通过「信任环」,第一次实现了跨系统、设备、生态的服务流转,之后在 8.0 上,则通过任意门,可以基于用户意图识别,一键实现流转,比如当用户进入车里,手机的应用生态就可以自动共享到车机上,可以直接从车机打开之前在手机上搜索的导航目的地,音乐。
而在 MagicOS 9.0 上,荣耀再次基于同样的互联思路,正在搭建跨端 AI 的生态,让 AI 基于意图识别能力,触及更多服务,覆盖更多场景。让 YOYO 智能体成为连接用户、设备和第三方服务的桥梁。
通过强大的核心大模型,敏锐的感知引擎,立体的交互界面,以及开放的生态,MagicOS 9.0 已经搭建好了一套完善的 AI OS 框架,进化为了「有灵魂的操作系统」,也展开了 AI 大模型落地应用的全新时代。
采访中,方飞最后提到了 AI OS 的未来,她说:「我不认为现在已经实现了最纯粹的 AI OS,我们只是刚起步,可能找到了方向,可能走得比别人稍微快一步,但我觉得未来两三年会发生一个巨变,这个巨变一定会到来。」
文章来自于“极客公园”,作者“Jesse”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0