「AI 手机」到底是什么?这个问题至今还没有结论。
ChatGPT 出现后,科技界迎来技术爆发。自去年底开始,新一代的旗舰手机纷纷引入大模型,它们有的实现了大模型端侧落地,有的推进端云一体,配置了多种 AI 能力,有的引入了第三方 AI 应用。虽然都叫 AI 手机,但发力点各不相同。
有人说,如果一台手机的 AI 算力大幅提升,能够感知真实世界,并用大模型进行理解和创作,那它就是 AI 手机。
这种定义下的设备,就是手机的下一个形态吗?
最近,全世界似乎都在等苹果 6 月 WWDC 大会来给 AI 手机进行「定调」。
据说在这次大会上,苹果将随 iOS 18 的大版本更新推出一系列全新生成式 AI 能力,覆盖智能搜索、AI 助理、运动健康以及生产力应用。
但在苹果 AI 解决方案全面揭秘之前,我们在国内手机厂商中似乎已经看到了 AI 手机未来该有的样子。
最近手机厂商推出的旗舰智能手机,通过引入或者内置 AI 大模型,已经为用户带来了一系列的 AI 智慧新体验。比如,我们已经能够在智能手机上体验到新一代 AI 助理、图像生成、文档摘要、语音翻译、AI 影像处理等等。
但很多时候,这些功能实际上不用手机接入大模型或内置大模型,第三方 APP 联网的云端 AI 也能完成,甚至比手机厂商做的还要智能。
所以,直击灵魂的问题来了:把大模型接入端侧的意义是什么?接入或者内置大模型,并打造一系列的 AI 应用就是 AI 手机未来的样子吗?
关于这个问题,苹果在最近披露的一篇技术论文中,给出了一种可能的答案。
在《ReALM: Reference Resolution As Language Model》这篇论文中,苹果提到了一个可以在端侧运行的大模型 ReALM,其在运作过程中,可以清晰识别屏幕中的各种元素,包括按钮、图标、文本框等等。识别之后,它会对这些元素进行文本转换,记录每个元素的确切位置和它们的关系,并将屏幕上的元素和位置信息,转换成详细的文本描述,输入语言模型,让其学会解析用户的指令。
不难想象,在无数次观察屏幕上的各种用户操作后,大模型将会越来越精确的分析并总结出用户使用手机时的既定行为模式,并可以借助一些 Agent 技术,为用户提供自动化、个性化的操作。
比如,每天下班,你都会连接投影仪,投屏自己喜欢的电视剧,ReALM 在学习行为习惯后或许能自动帮你连接设备,并投屏好昨天未看完的电视剧,你只需要点击播放即可。
事实上,这种充满想象,甚至一度让人联想到电影中「贾维斯」的 AI 手机方向,已经有国产手机厂商早于苹果落地,并仍在不断进化中 —— 今年年初,荣耀发布了 AI 使能的全场景操作系统 MagicOS 8.0,依靠平台级 AI 以及自研端侧 AI 大模型带来了行业首个基于意图识别的人机交互,改变了人去适应机器的传统交互模式,让手机能够学习人,了解人,并能主动为人提供服务。
而这种区别于行业普遍做法的 AI 手机路径,也得到了当前市场的验证。
4 月 25 日,国际数据公司(IDC)发布的最新手机季度跟踪报告显示,荣耀以 17.1% 的市场份额拿下第一。据 IDC 中国区副总裁王吉平介绍,此次荣耀登顶,AI 成为关键增长引擎。
其中,荣耀全新旗舰 Magic6 系列得益于 AI 功能的增加,以及影像,屏幕等全方位的升级,首销第一季度出货量超过上一代产品前二季度出货量之和;在搭载平台级 AI 的荣耀 Magic V2 以及其他折叠屏家族产品的推动下,去年以来,荣耀折叠屏手机份额同比涨幅最高达到 675.4%。
在荣耀看来,当前行业以大模型赋能应用或者打造 AI 应用的路径更像是手机 AI,而不是 AI 手机。
荣耀 CEO 赵明在近期谈话中更是直言:「手机 AI 不等于 AI 手机。AI 手机意味着用 AI 来重构和使能手机应用和操作系统,以及消费者体验和业务逻辑的方方面面,AI 是根基,AI 在手机上是无处不在的,这才能叫 AI 手机。」
今年 3 月,荣耀提出 AI 使能的全场景战略,进一步明确了在 AI 领域的战略方向,定义了智能终端的 AI 四层架构。
其中:
据赵明介绍当下手机厂商 AI 的发力点集中于这三四层面,而四层 AI 全部发力的只有荣耀,并且荣耀的重点在一二层。
AI 在端侧的应用是一条探索之路,没有前人的经验可供参考。
在不同的路径中,一些厂商选择以点带面的方式切入,通过在手机中加入很多独立的生成式 AI 能力,解决了多类场景中的问题,如智能翻译、修图、高级搜索、内容生成等等。
这种方法快速引入了新技术,能够高效地解决问题,提升部分操作的效率,但适用的场景具有局限性,仍处于「我们告诉手机要怎么做」的阶段。
此时,大模型智能体(Agent)走入了人们的视线。
知名 AI 学者吴恩达(Andrew Ng)最近表示,很多人都已经历过「ChatGPT 时刻」,即尝试 AI 的时候发现体验大大超出预期。也许你很快还会经历类似的「AI 智能体时刻」。
吴恩达认为,AI 智能体工作流今年将有巨大进展,其智能程度可能会超过下一代基础模型。
荣耀正在做的,就是在手机中利用智能体驱动大模型能力,这就与「手机 AI」的友商形成了对比。
如果我们对手机发出的指令,接收方是智能体驱动的 AI,它能像人类助理一样围绕场景理解意图并分解、编排任务,端到端地完成较为复杂的工作,如安排你的出行、规划旅行、组织聚会等。
更重要的是,智能体并不针对某类问题或者单个场景,而是利用了操作系统级的资源,能够感知场景变化,学习用户习惯,主动思考,决策调用系统所有能力。这样以来,大模型就能承接复杂任务,交互的体验也获得了升级。
以智能体为工具,利用 AI 重构操作系统,从内而外地重新构建手机的人机交互体验,相比单独引入能力,可以获得无限的可能性。这是荣耀一直在做的事,并且已经深耕了 8 年之久。
2016 年,荣耀第一次在智能手机端引入 AI 概念。智能手机在 AI 技术加持下,能实现相应的需求感知和机器决策,这是荣耀 AI 能力的 1.0 阶段。
2022 年,荣耀推出的平台级 AI 使能的全场景操作系统 MagicOS 7.0,能基于地理围栏和用户习惯等信息,主动提供场景建议引导及服务;2024 年 1 月 10 日发布的 MagicOS 8.0 包含的「任意门」功能,立足于用户意图识别,带来跨应用和跨设备的智慧流转。
在传统的手机系统中,OS 内核主要负责管理硬件资源,而平台级 AI 这一「新内核」则负责「管理」与人相关的因子,如个人知识库、位置与状态、习惯与画像等,帮助 OS 精准识别用户意图,高效调度系统服务,能够带来「猜你所想,懂你所需」的智慧体验。
此外通过以 AI 重构操作系统,荣耀还创新地推出了基于意图识别的「新生态」范式,以 YOYO 智能助理为载体,充分协同端云大模型的能力,带来了更多「意图直达」体验:端侧平台级 AI 大模型作为中控,理解用户意图,拆解编排任务,高效安全地连接云侧大模型,分发、融合、调度原子化服务,完成复杂任务闭环。在这个过程中,端侧大模型通过端侧防护网滤掉个人隐私,并确保个人信息不上云,保护了隐私安全。
更进一步,在应用层面上,荣耀的 MagicOS 不仅连接自身能力,也覆盖大量第三方服务。荣耀希望在 MagicOS 上把云侧通用大模型,以及面向各行业垂直领域的大模型融入成为一体,为每个用户提供更好的服务分发和任务闭环体验。
未来,荣耀希望能够打造一款可以持续的成长和进化的手机,当你用它越多它就越能懂你,越能够帮助你。
在 AI 时代,当有人重构端侧,真的让手机懂你,AI 就会从几年前的应用和服务变成主导操作系统的基础,让手机变成用户的一个分身。当我们从这个逻辑去发展手机和 AI 的时候,AI 手机才会从一个概念落地成为实体。
在 AI 大模型能力持续提升,端侧算力和优化推动技术不断落地的今天,更为贴合用户使用需求的架构,不仅能让手机获得差异化竞争优势,而且还会逐渐形成新的生态链,引领生成式 AI 颠覆性创新。
这或许才是 AI 手机不断发展的方向。
荣耀 AI 手机走出的路,带来了更多想象力,未来正在显现更多的可能性。
本文来自微信公众号“机器之心”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT