当AI开始接管你的手机……
经过一年多的摇旗呐喊,AI手机终于还是在2024年完成了对智能手机的替代。
至少在概念上,几大主流手机厂商今年在传播口径上都已经陆续完成了向AI手机的转变,就连苹果也高调选择了与OpenAI联姻。
即便如此,对于大多数消费者来说,依然没有弄明白「AI手机」和「智能手机」究竟有何不同。
关于AI手机,我今年看到最多、也是最直接的AI功能是「AI读屏」:
手机搭载的智能体像人类一样识别出手机屏幕上的内容,然后一步一步按人类的思维逻辑完成常见的诸如线上购物、朋友圈点赞评论等功能。
与智能手机中的AI不同的是:
这样的AI有了明显的“思维链”,实现逻辑更为复杂。
与智能手机时代的功能设计逻辑不同的是:
这次,「AI读屏」功能的后台执行逻辑,被手机厂商在手机屏幕上完整呈现了出来。
对于大多数普通消费者来说,人工智能的自动化能力第一次被具象化,带来的是最直接的视觉冲击。
那么,这样的“读屏术”在技术上是如何实现的?
大模型炸场后,微软和谷歌的往来过招,成了这场旷世之争的看点,AI手机的“读屏术”正是在这样的神仙过招中逐渐成形。
2023年2月8日,微软New Bing(Bing AI)发布,这是微软与OpenAI联手后,借生成式AI面向搜索引擎发起的新一轮冲击,New Bing在ChatGPT加持下,曾斩获不小市场热度,也一度把谷歌吓得不轻。
面对被视为ChatGPT版的New Bing,谷歌随后祭出了自己的Bard。
Bard是由谷歌内部早在2021年就已经对外发布、同样是基于Transformer架构的LaMDA提供支持,但当时还是一个实验性的聊天机器人。
这是谷歌和微软在生成式AI领域第一次正面较量,双方的这次较量,让搜索引擎这一互联网老产品,有了一些Chat新花样。
不过,此时的生成式AI,还没有对端侧造成直接冲击。
真正的冲击,是在微软Copilot发布后。
2023年3月16日,微软对外官宣,正式为Microsoft 365应用加持Copilot服务(Microsoft 365 Copilot),在将生成式AI叠加到办公软件后,真正的内容生成魔力开始成为生产力工具的一部分。
大模型由此也在企业办公软件领域形成了一股潮流,开启了抢滩登陆模式。
就谷歌和微软两大科技巨头而言,为了做出生成式AI技术模式下的杀手级应用,他们动用了生态力量——分别将Windows生态和安卓生态面向大模型全面打开。
这之后,二者的大模型之争开始下沉到端侧。
经过大概半年试错和打磨后,谷歌和微软分别在端侧拿出了自己的“关键作品”:
谷歌是在2023年10月发布的pixel 8系列手机上增加了一个名为Circle to Search的功能。
有了这一功能,只要你对着手机屏幕上的图片圈出你想了解的产品,谷歌AI就可以自动搜索出这一产品的相关信息和出处。
这一功能后来也被三星拿去作为Galaxy AI的主打功能,对外宣传推广。
实际上,在这一功能出现之前谷歌对Bard进行过一次升级,更新后的Bard可以从Gmail、Docs、谷歌地图、YouTube等应用中总结信息,也是在那时,个人本地知识库开始被谷歌用于深度检索(也就是RAG),并由此衍生出为用户提供出行建议、日程安排等功能的个人助理。
Circle to Search自然是承袭了这一能力。
微软则是在2024年5月20日AI PC发布会上官宣发布了Recall功能。
这一功能是通过微软Copilot,帮助用户根据记忆点或时间线来跳回到此前某个时间点电脑上显示的原始内容。
实际上,除了这两位AI大佬外,当初为了拿下苹果的大模型订单并获得新一轮融资,OpenAI发布了GPT-4o,并秀了一波视觉识别的功能。
通过手机摄像头,让GPT-4o解写在纸上的数学题,甚至识别出现在镜头前用户的情绪。
检索增强生成(RAG)和包括语言、视觉在内的多模态大模型技术的成熟,以及大模型在端侧的下沉和应用,让AI读屏功能在手机上出现成了顺理成章。
2024年的手机圈,AI读屏功能正在迅速成为标配。
仅以上周手机圈密集的发布会上对外公布的信息来看:
先有华为在鸿蒙发布会上对外发布的小艺圈选功能(类似谷歌的Circle to Search),又有荣耀在更新新系统时对外发布演示的“一句话点咖啡”功能。
在OPPO Find X8系列发布会上,OPPO更为直接地上新了「一键问屏」功能。
或许是因为是针对手机系统的发布会,荣耀虽然请了沈腾作为公司的AI大使,还做了主题为“AI就是一句话的事儿”广告,但并没有针对这一功能给出明确的诸如「AI读屏」或「一键问屏」这样的命名。
不过,荣耀CEO赵明倒是在发布会上讲明白了「AI读屏」功能的具体工作流。
在赵明的介绍中,AI读屏的工作流可以分为三步(以“帮我点杯喝的吧,我有些困了”语音指令为例):
第一步,模糊意图理解。
手机内置的智能体将语音指令进行拆分理解,分析用户意图是“困了”想点杯解困的“喝的”,筛选出可能选项(咖啡、绿茶、凉茶等)。
第二步,复杂任务规划。
首先智能体根据手机时间信息、定位信息,识别出最终配送地址;
然后智能体根据手机已有的本地个人知识库中收集到的你的日常饮食习惯,得出你希望点单的咖啡的品牌、甜度、是否加冰等信息(如果是新手机,这一步会卡壳,就需要用户手动点选);
最终智能体确认具体的点单信息并自动填充配送地址。
第三步,任务自动执行。
首先智能体识别出手机屏幕上的本地生活服务APP(例如美团),并搜索咖啡品牌(例如瑞幸);
其次识别并理解屏幕上的关键信息,进入外卖点单页面(例如瑞幸的幸运送);
然后根据已经规划出的用户点单内容(例如大杯少冰正常糖拿铁),在屏幕上一步一步进行类人的点选操作;
最后进入到结算页面,用户接管,由用户并选择是否用优惠券、是否确认下单。
如果说ChatGPT在全球形成的热潮让大家意识到了生成式AI、大模型的颠覆性,那么作为一个更聪明的聊天机器人,它首先带来的是又一次交互模式的改变。
AI读屏就是人类和手机交互模式改变的一个重要体现。
如果结合微软、谷歌大模型之争来看,AI读屏背后的技术逻辑,和微软的Recall、谷歌的Circle to Search,以及OpenAI的GPT-4o有着诸多相似之处。
从技术实现原理上来看,包括OpenAI的GPT、Anthropic的Claude、谷歌Gemini、阿里通义千问在内的所有主流大模型,都能做出AI读屏功能。
实际上,就在手机圈纷纷押注AI读屏功能时,在上周与三星中国官宣了战略合作的智谱AI在2024中国计算机大会(CNCC 2024)上发布了AutoGLM。
什么是AutoGLM?
智谱AI的大模型是以GLM做得命名,AutoGLM也就是拥有自主能力的大模型,有媒体将它解读为是学会了使用工具的大模型,但本质上就是在手机上实现了AI读屏功能。
从官方公布的信息来看,这一模型目前是以App中的一个功能模块对外呈现(只支持安卓手机,现在还在内测阶段),并没有与手机底层系统强关联,也不挑手机品牌。
如果说在这套流程中,手机厂商的地位有何独特之处的话,那应该是平台和数据了。
作为手机这一超级硬件的主导者,手机厂商不仅掌握着平台入口,更有强大的系统集成能力。
这就意味着决定端侧智能体智能程度的本地个人知识库,以及端侧智能体的微调、优化能力,对几大手机厂商的软件团队有很强的依赖性。
实际上,早在10月22日,OpenAI的头号死敌Anthropic就对外官宣发布了Claude 3.5 Sonnet,在这次版本更新中,Anthropic加入了一个独特的功能是”computer use“。
这个computer use,其实就是PC版本的AI读屏,它可以读取你PC的屏幕,并根据你给出的一段话的任务指令,自动完成诸如搜旅游攻略、写程序代码等功能。
不过,在Anthropic官方的描述中,在OSWorld(评估 AI 模型像人类一样使用计算机的能力)上,Claude 3.5 Sonnet的得分为14.9%,远未达到人类平均水平,人类平均得分是70%-75%。
要想提高模型准确度,本地个人知识库也就成了必须。
在过去这短短一周里,这么多AI巨头和手机厂商都瞄准了AI读屏功能在猛攻,显然是将这一功能视为了AI手机的杀手级应用。
AI读屏,确实最能体现AI手机的“AI”与智能手机的“AI”的本质区别,也是各大手机厂商的机会。
对于像我们这样的普通消费者来说,未来,AI不只会接管你的手机,甚至还会接管你的PC,乃至更多电子设备。
而这样的UI Agent,其实还不是端侧智能体的终极形态。
文章来自于微信公众号“锌产业”,作者“山竹”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。
项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner