AI 手机的形态,再次进化了。
已经快「卷到头」的手机芯片,终于迎来了一次能力突破。
今年刷爆整个科技圈的 AI 视频生成,不打招呼就落地到了手机上。
很多大厂还在邀请测试中的 AI 短视频生成能力,现在用手机算力就可以本地搞定了。
大模型的训练,现在也可以在端侧完成:勾选手机相册里的几十张照片,我们就可以构建出个性化 LoRA 模型,然后生成独有的数字分身。
端侧的 AI 训练能力不仅可以保护数据隐私,还可以花式提升拍照技术。
比如这个生成式 AI 修图功能,通过训练已有的照片就能自动修正新照片中的模糊、暗光等问题。以后拍照时再也不用担心抓不住经典瞬间了。
相比之下更加「基础」的能力,如多模态大模型的推理,也可以在手机端侧进行:
无论是拍数学题让 AI 解题,还是看一张外文菜单让 AI 帮忙点菜,都是几秒钟就能办到的事。
这一系列技术的驱动力,都来自联发科上个星期推出的新一代旗舰 5G 智慧体 AI 芯片天玑 9400。
发布没多久,它就成为了 2024 年旗舰手机芯片的标杆,而且随着 vivo X200 系列手机的上市,马上就会与我们见面。
在这块芯片的帮助下,手机的 AI 算力获得了大幅提升,前沿大模型算法获得了来自底层的优化,无数 App 之间的壁垒也被打通。
而众多手机的用户,即将见证一场人机交互体验的变革。
天玑 9400 被称作是 AI 时代的新里程碑,它是一块专门为 AI 时代打造的芯片。
首先,天玑 9400 在算力和能效上都达到了新的高度:在 AI 领域权威的评测基准 AI Benchmark 最新榜单中,它以 6773 分的成绩名列第一,是上一代分数的 1.4 倍。
这并不是一个极限状态下的参考值,而是可以落地到实际体验层面上的性能提升。因为新制程和新架构的加持,天玑 9400 在进行 AI 计算任务时的平均功耗还降低了 35%。
说到实用程度,天玑 9400 带来了一大串业内第一,其中包括但不限于:
面向生成式 AI 时代,天玑 9400 不仅着重提升了 AI 算力,也针对大量软件、算法进行了优化。它带来了更强的 AI 性能、多模态、高速 Token 输出,可以实现端侧大模型的隐私训练。
它采用的联发科第八代 NPU 890,率先支持了端侧 LoRA 训练和端侧高画质视频生成,AI 性能和能效得到显著提升。相较于上一代产品,天玑 9400 的大语言模型(LLM)提示词处理能力提升了 80%,为大量新一代 AI 应用打好了计算底座。
通过基础算力的提升,手机的原生 App 可以实现大模型与应用的分离管控,结合端侧大模型的 RAG + LoRA,让云端的 AI 助手变成了本地智能助手。另一方面,通过定义标准的接口,手机上互相独立的智能应用实现了双向交流,我们第一次拥有了一体化的智能体验。
AI 解决方案的碎片化,可能是未来一段时间内各家手机厂商面临的挑战。天玑 9400 与很多科技公司、AI 创业公司进行了深度合作,包括阿里云、百川智能、Google、面壁智能、Meta、微软、零一万物、腾讯混元、百度文心等,实现了对主流大模型的大面积优化。
9 月 26 日,在 Meta 发布开源大模型标杆 Llama3.2 的同时,联发科也正式宣布与 Meta 合作完成了新模型 1B、3B、11B 等版本的端侧部署。
通过上到应用厂商,下到硬件架构的全链路优化,搭载天玑 9400 的智能手机就能够在本地运行更为复杂的大模型,承载起前所未有的丰富应用生态。
在天玑 9400 的一系列新能力中,业界首款「AI 智能体化引擎」最为引人关注,它能够支持端侧的智能体级硬件加速。
我们知道,面对日益增长的 AI 算力需求,近年来很多芯片厂商陆续提出了针对卷积、Transformer 架构的硬件优化。而这一次,联发科直接把优化提升到了智能体的层面。
究其原因,在技术爆发的背景下,AI 智能体已是大模型应用不得不走的方向。
「AI 智能体」可以定义为:一个被赋予行动能力的 LLM,可在环境中对如何执行任务做出高层次的决策。
通过对工作流程的自动化、增强决策能力和提供个性化体验,智能体技术就像一个倍增器,大幅增强了大模型的应用范围和能力。
首先,面对复杂的任务,智能体可以进行规划:它将大型任务分解为若干更小、易处理的子目标,每个子任务由一个更小、更专业的工具处理,从而高效处理复杂的任务。智能体可以进行反思和完善,对过去的行为展开自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,提高最终结果的质量。
其次,智能体提升了大模型的记忆能力:在大模型的工作过程中,大部分上下文学习都是利用模型的短期记忆来进行的。智能体利用外部向量存储和快速检索等机制,提供了长时间保留和回忆「无限」信息的能力。
最后是工具的使用:智能体可以学会调用外部 API ,利用多种工具来获取额外能力,包括当前信息、代码执行能力、对专有信息源的访问等。
AI 智能体系统概览。图片来自:https://lilianweng.github.io/posts/2023-06-23-agent/
简单来说,利用智能体,小模型可以实现大模型才能完成的任务,大模型可以尝试以前无法想象的任务。通过智能体的方式,大模型技术可以获得更好的普及应用, 让 AI 表现出我们真正期待的样子。
比如前不久,来自 FutureHouse、罗切斯特大学等机构尝试构建的科研智能体 PaperQA2,它在检索和总结任务上的表现已经超过了人类博士后。
除了一系列研究论文,很多科技公司正在涉足 AI 智能体领域。然而,在见证了许多 AI 智能体的尝试之后,我们会发现它们距离实用化似乎仍为时过早。
比如在手机上,虽然智能体在使用工具、工具调用的方面很有潜力,但仍然面临着速度较慢、成本高、以及应用间接口不统一,调用难等问题。
天玑 9400 的 天玑 AI 智能体化引擎,率先开启了 AI 智能体产品化的竞赛。
联发科正在积极与开发者合作,为 AI 智能体、第三方应用程序和各种大模型提供统一的标准接口,实现 AI 跨应用的快速互联,提升端侧 AI 计算的体验。
当前,AI 前沿算法的更新速度几乎以天计,人们对于大模型应用的能力需求已经逐渐上升到多模态、多任务、多领域的层级上。
在人们的设想中,人与手机之间的沟通会覆盖语音、文字、图片等多模态内容。AI 手机可以清晰地理解你的意图,也可以根据你的位置、喜好、环境等制定出可用计划,进而自动帮你完成各类任务。相比过去简单的 AI 语音助手,有智慧的 AI 可以对话交流,进行决策,进而变得更加「主动」。
新的范式下,智能手机需要展现出三种关键能力:自主化理解需求、自动推理策略以及自动完成任务。
在手机上,一端是大模型这样的新技术,另一端是无数我们现在每天在用的 App。联发科指出,在手机端侧 AI 能力升级后,很多传统应用都会变得更加智能化。
天玑 9400 在发布时就为我们演示了一系列应用在「智能体化」后的新玩法。
在新一代手机上,点餐应用会记得你的个人喜好,并感知环境给出有用的建议;出行 App 可以跨应用获得行程规划,自动根据你的习惯预定酒店;购物 App 也可以根据特定复杂的需求,快速挑选出合适的潮品……
这样复杂的操作,很大程度上是通过把用户需要完成的任务切分成多个步骤,通过智能体 AI 来一步步实现的。而且只有手机充分利用起端侧 AI 的处理能力,在日常不间断的交流不断加深对使用者的理解,AI 才能给出有用的建议。
因此我们会发现:天玑 9400 实现的端侧 AI 算力和赋能应用智能体级的优化,大幅提升了手机智能化的上限,也是 AI 手机进化的必要条件。
只有做到了这一步,手机才算是由「智能」进步到了「智慧」的层面,改变了人机沟通的方式。
这不由得让我们想到了苹果在今年 6 月发布 Apple intelligence 时展示的愿景:生成式 AI 的应用,必须强大、直观、完全整合、个性化且保护隐私。
作为目前唯一一家从芯片层面上打通 App 之间 AI 能力壁垒的厂商,联发科提前兑现了我们对 AI 手机的期待。
种种迹象表明,生成式 AI 的应用已经到了新的节点。
上个月 OpenAI 发布的新一代大模型 o1,为我们打开了未来的想象空间。
现在,AI 终于拥有了足够强大的思维能力。OpenAI CEO 山姆・奥特曼发表长文,对智能时代提出了设想:「我们将拥有解决困难问题的工具,与 AI 的合作可以大幅提升工作效率。最终,每个人都会拥有一个由不同领域虚拟专家组成的个人 + AI 的团队。」
OpenAI 代表着技术革新的一面,它推崇的思维链和强化学习正在开拓大模型的前沿方向,或许在几千天之后,我们就会见证「超级智能」的诞生。
而在人们每天都在使用的智能手机上,革新也已显现。
天玑 9400 通过一系列技术突破,在芯片端侧 已经具备了完整的生成式 AI 能力,正在帮助 AI 手机走向智能体化。
不得不说,在计算摄影、折叠屏等方向以外,我们终于看到在手机、芯片和应用厂商的不懈努力下,生成式 AI 构建 AI 智能体成为了新的发展方向,也从底层革新了智能手机的用户体验。未来的智能手机,还可以帮助我们做到更多。
天玑 9400 将首发搭载于 vivo X200 系列手机上。在这之后,OPPO、小米等各家厂商的产品也会接踵而至。
有趣的是,在联发科的发布会上,核心合作厂商米 OV 的高管们轮流上台,都宣称自己是天玑调校最好的那一家。这一次,哪家会率先在 AI 智能体上展现出真本事?
文章来自于“机器之心”,作者“泽南”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0