9月10日凌晨,苹果发布全新iPhone 16系列,这款产品最重要的更新,也是对于苹果这个系列最大的期待,正是其Apple Intelligence的能力。
自从苹果6月份展示这项功能以来,以苹果为代表的AI Agent概念引发了全球莫大的关注。
这种类似知名电影中Javis一样的技术,是一种可以感知环境和信息的智能体,它可以主动依靠周边的信息,或是听从语音指令进行决策和执行任务。从技术上来看,它将人类的语音进行分解,并且像人类一样思考,将这些语音细化成机器指令,并且执行。
硅谷科技公司的大佬们说过一句话,真正的AI是from language to python。
翻译过来就是——真正的AI,即机器可以完美地理解人类的语言。
听起来很容易,但这并不是一件多么简单的事:人类的语言很丰富,但是没那么准确,一个真实的含义(任务),可以通过上百种语言方式表达,但机器的世界,哪怕错一个字母或者空格都不能执行。
早在iPhone 16系列之前,来自全世界的智能手机厂商,甚至是全球智能硬件厂商们,已经进行了无数次尝试。但由于在技术上底层能力的缺失,使得这类语音助手们的表现有点让人哭笑不得——它们通常只能支持部分问答式的功能,最多也只能结合和处理一些官方应用的内部信息。这类个人语音助手与Agent的最大区别是:它们完全无法实现主动感知,并理解用户的真实需求,所以更不能贸然去主动执行,因为全是错的,还不如不做。
还是有中国厂商走在了这条路的前列。
早在4天以前,荣耀在IFA 2024——IFA 100周年的时间纪念节点来势汹汹,公布了一系列的全球市场新品,包括荣耀Magic V3及Magic系列多品类旗舰级产品海外发布,但更重要的,首次官宣了其荣耀AI Agent(即智能体)的创新成果和创新理念——抢在了苹果之前。
不同于苹果在Apple Intelligence上的能力,荣耀AI Agent不仅标志着荣耀个人语音助手的全面升级,同时它还带来了不同于苹果和其他手机厂商内置个人语音助手通常可以提供的功能。
荣耀终端CEO赵明在IFA主题演讲中进行了演示,AI Agent YOYO展示了其跨应用信息的交互能力——通过语音呼出命令,“我有哪些订阅服务”, YOYO主动与微信和支付宝等服务进行交互,以检查用户是否正在进行订阅,随后YOYO 在语音助手页面展示了全部的订阅服务,并且在页面上可以一键关闭,取消订阅以防止持续付款。
这也意味着,业界首个跨应用开放生态智能体,没有来自苹果,而是中国荣耀。
在概念上,苹果和荣耀作为移动终端公司,对于移动端侧的AI Agent的理念不谋而合,即通过个人智能语音助手,向更深层的用户信息渗透,理解并帮助用户更好执行任务。但两家公司,还是走出了智能手机AI Agent的不同道路。
苹果偏向于封闭和谨慎:Apple Intelligence目前公布的一系列的AI功能,基本都基于服务层和自家的应用层面——诸如智能回复、AI摘要和转录等功能,看起来还没有特别大的颠覆性。
但荣耀更希望在开放生态上打造自己的AI Agent能力。
如果仔细去回溯两家硬件公司在AI领域的投入和进展,会发现历史又是惊人地相似——曾几何时,这个世界最伟大的产品经理、天才创始人史蒂夫·乔布斯发布了iPhone,重新定义了智能手机;现在AI成为了推动智能终端进行革新的全新动力,一场围绕AI Agent智能体重新定义“智能”手机的全新范式又开始了。
手机行业人士们提出了不少看法,首先是讨论端侧AI的能力。
手机端侧+云端AI的结合,是过去很多智能手机厂商们的做法。
比如,LLM的浪潮已经火热了一年,关于智能手机AIGC的创新也已经开始,但一些疑问也被抛出:由AI大模型驱动的应用创新,就是写诗作画么,诸如AI消除这类功能就是智能手机+AI演进的未来方向么?
过去大模型技术其实只是云和端侧的简单结合。端侧负责提出需求,云上负责渲染,但这种模式确实不能算是真正的AI。
核心问题就在于,信息都在智能终端上,但端侧的信息不可能一直上云,尤其是用户的个人信息。这也验证了:AI的能力必须做在终端上,成为一个on device AI。
而很多在端上的AI,例如写诗作画,分析报告,目前综合结果来看,也并非AI Agent的主力场景。
其实,这非常像是如今最流行的技术——汽车的智能驾驶系统,端侧算力非常重要,云和端也进行了结合,但决策一定都发生在端侧。
驱动着这辆汽车进行车辆全部数据的采集,结合并且执行,才是一套真正的智能驾驶系统。
从这个角度看,AI Agent就是让智能手机进入“智能驾驶”时代,让数据真正地无缝流转起来。
荣耀认为的AI Agent的样貌,也是在端侧为用户提供服务。首先,它必须具备自然语义理解和计算机视觉。第二,它必须理解并学习用户行为习惯,能够进行实时环境感知。第三,它必须具备意图识别和决策能力。最后,它必须能够进行应用内和跨应用执行操作。
在这个过程,信息安全成为首要被考虑的因素。
其一,就是端侧本身的安全能力一定是大于云端信息处理。如果只是把厂家的、云端的AI服务集成到智能手机上,这种简单的个人信息输入到云端处理的方式,势必是存在信息安全隐患的。
其二,是信息全流程的可视和可控性,以“一键关闭自动续费”为例,荣耀AI Agent 首先理解显示内容,解释内容的含义,然后将其转化为行动,通过激活智能体,实现一键查阅、一键取消APP续费订阅。在此过程中,用户界面会以视觉动效的形式提醒AI Agent已启动;在理解用户关闭自动续费需求后,荣耀 AI Agent全程提示所操作的应用及步骤,且每个步骤状态可知;并且在整个工作流中,AI Agent随时可以人工接管进行下一步操作;涉及取消自动续费等重要决策,AI Agent会把决定权归还用户,用户必须手动进行确认。
此外,也可以看到,不同于苹果在“围墙花园”的封闭生态中打造AI Agent的做法,荣耀致力于在开放生态下,为用户打造能够完成跨三方应用操作的AI Agent。
荣耀此前已经发布四层AI战略架构,它们分别为跨系统AI层、平台级AI层、应用级AI层、AI端云协同层。具体而言,跨系统AI层指通过AI使设备跨系统智慧互联,实现手机、平板、PC等设备间的无缝连接和数据共享;平台级AI层指让AI重构操作系统,从而令设备更懂用户,并能够主动为用户服务,实现设备的意图识别功能;应用级AI层则是AI手机所搭载的AI应用功能,如AI抠图、渲染视频、AI文档总结等;最后一层则是在保证用户隐私安全的前提下,充分调用网络大模型的能力,实现AI的端云协同,丰富手机的AI体验。
很多其他智能手机的AI能力其实都仅在应用级AI层、AI端云协同层;苹果6月发布的AI战略则与荣耀的AI路线不谋而合,其实也在向平台级AI层跨越。就像荣耀CEO赵明在IFA接受媒体采访时所说:苹果的确是高手,让手机AI回到正确的道路上来。既然(苹果与荣耀)英雄所见略同,那下一步就是比谁能够更好的创新,围绕着AI提供更好的服务。
但目前来看,荣耀和苹果的AI Agent能力还是有所不同。
如果把苹果和荣耀的AI Agent类比成两个机器人的话,这两个虽然看上去都是机器人,苹果的机器人实际上更像是在自己的仓库执行固定命令,而荣耀的机器人则走向了开放世界。这也意味着荣耀AI Agent有更大的灵活度。
而荣耀选择开放路线,一方面有先天约束条件,就像赵明所说,“荣耀所处的环境和条件,在中国的互联网和AI服务的生态下,都是各个厂家来提供各种各样的AI服务,我们只能走开放的道路,跟海量的互联网的AI服务结合”;但另一方面,这种先天的限制条件让荣耀的AI Agent相比苹果有了更大的落地难度,“既有应用内的操作,还有跨应用操作,这个复杂程度大家可以想象一下,一定是比苹果更复杂、更高的”,因为背后需要打通所有APP的内部信息。
真正的AI是用AI驱动机器,让内部信息流转,而非用暴力算力驱动生成式应用。
过去终端厂商们处于封闭生态的情况,其实严重依赖于芯片、架构和指令集技术,在封闭的生态内做体验确实会更好。但现在,ARM几乎一统跨设备的终端,这已经成为了趋势,过去的基底壁垒从根本上被打破,但问题在于整体跨端体验上还没跟上。所以,荣耀的四层架构实际上是在技术底层做更多的贡献,也才有机会打通技术信息的隔阂。最显性的还是APP内部的信息流转,开放跨端已经成为了一个显著的创新趋势。
从这个角度看,荣耀先于苹果,走上了这条路。
打破信息隔阂,荣耀在IFA 2024上的AI Agent创新案例只是揭开了开放AI生态的冰山一角——当然,这一切建立在荣耀对端侧AI的探索积累上,是量变到质变的结果。
自2016年起,荣耀着手探索行业端侧AI技术创新无人区。2018年,荣耀发布Magic第二代,启用自进化、自学习的智慧生命体YOYO。2022年,荣耀推出平台级AI——Magic Live智慧引擎。2023年,荣耀首次提出在端侧引入AI大模型。2024年,荣耀发布MagicOS 8.0,带来行业首个意图识别人机交互新范式。从行业首提手机AI概念并发布首款AI手机,到MagicOS持续构建平台级AI能力、探索意图识别人机交互创新,再到行业首发跨应用开放生态智能体AI Agent,荣耀立足于持续引领行业AI技术与终端创新方向。
CCS Insight预计,到2024年,搭载AI的智能手机的出货量将超过3亿部,会占据整个市场的四分之一。到2028年,这一数字预计将达到每年10亿部。设备制造商都在押宝人工智能,它们也正在重振消费者对智能手机的兴趣。
由技术构建的AI Agent开放世界也意味着具备更大的想象空间,创新也会更多。
这条道路会有越来越多的同行者。但从今天来看,首款AI Agent智能手机,还真不算是iPhone 16。
文章来源“硅星人Pro”,作者“王飞”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md