在硅星人AI创造者大会(ACC 2024)上,智谱AI COO张帆与硅星人创始人、CEO 骆轶航进行了一场围绕智谱AI与智能终端的对话,以下为对话实录:
骆轶航:上次在钉钉的panel上,我问了一些比较难回答的问题。
张帆:我已经出汗了。
骆轶航:还好,智谱给了我两个触动,过去,我是沿着GLM-3、GLM-4、GLM-plus、GLM-4-Voice的升级路径理解智谱的,特别是在多模态方面的升级,让我觉得智谱在 AGI (通用人工智能)的实现上有自己的路径,也被很多人称作是中国最像 OpenAI 的公司。然而,最近在高通骁龙峰会上,我看到智谱在端侧模型上与高通达成的全方位合作,这是有区别于 OpenAI 的努力。第二点是,智谱在手机端实现了AI自主操作的功能,也就是AutoGLM。智谱的AutoGLM 有多少人知道?台下可以举个手看看。
你看,将近一半。大家既然关注这个话题,那么我有两个问题。第一,你们什么时候开始研发AutoGLM的?因为前两天Anthropic的Claude Sonnet 3.5 刚刚发布了用AI操作电脑的功能,离得这么近,我显然不能说你们是抄的。第二,AI操作终端设备,背后是在人的意志下操作终端设备,这为什么成为美国和中国的明星AI公司竞相探索的方向?
张帆:其实OpenAI也在探索这个方向。这两个问题都很好。实际上,关于模型操作机器的探索,我们从去年便推出了开源模型,我们尝试通过视觉理解界面来做,不过早期的自动化流程成本非常高。比如每花1元在RPA软件上,需要额外投入3元的交付费用,而且自动化还不够普及化,一个广告弹出便可能导致流程中断。去年,我们发布了Agent,并在设备端持续优化,投入时间超过六个月。恰巧的是,我们和硬件厂商的合作发布时间与Anthropic几乎同步,这说明市场对这个方向的信心。
为什么这个方向重要?今天的大模型智能从简单应用向复杂应用不断演进,尤其在 Agent 到 o1 推理模型的拓展中,使系统逐渐进化到能够持续与外部交互。系统通过将复杂问题拆解为不同步骤,执行的智能增强,从而在特定场景中动态调节模型能力,通过不断验证和调整逐步达到目标。因此,外部连接的重要性日益凸显。
同时连接的方式大致划分清晰。首先是通过API连接到虚拟世界,例如ChatGPT的智能体平台和智谱的流程工具“智谱清流”,这些能力与外部系统对接已经实现。第二个阶段是没有API的系统,门槛会更低,API也不是那么容易申请,更进一步的是与虚拟接口的交互,当前主要解决的是这个阶段。下一个阶段是与物理世界的连接,即具身智能的实现。
骆轶航:AutoGLM可能意味着大模型进入了一个新的阶段。这是智谱CEO张鹏在中国计算机学演讲的一张图(大屏幕),就是AutoGLM所代表的AI的L3——也就是工具能力阶段。看到这张图时我非常欣慰,因为我们已经在多模态和自然语言交互方面实现了80%的效果,且在逻辑思维的维度上也达到60%,有了自我学习的功能,这让Agent实现更加实际。我想知道,自然语言和多模态领域,你们提到的完成度80%,在端侧也能不打折扣了吗?
张帆:是的,可以在端侧实现。
骆轶航:我们看到这次在高通骁龙峰会上的合作,围绕着多模态,尤其在语音、多模态、逻辑推理能力的提升,你们与高通的合作是怎么达成的?
张帆:如您所说,智谱是最早一波投入在端侧上的公司。我们在去年便实现了端侧模型,当时觉得还不够 ready, 但是持续研究没有断,这次在骁龙峰会上,高通首先推荐了智谱模型,也有人来问,说高通很少直接推荐某一家模型,这是第一次。这得益于过去一年多我们与高通的持续沟通,合作涉及两个维度:一是智谱的完整模型矩阵,包括文本、多模态、语音等,跟高通也很契合;二是设备端的契合,智谱也是最早在高通8295汽车芯片上运行模型的公司,差不多能做到100个token/秒的处理速度,此次与高通的联合发布,正是智谱过去一年多在端侧领域持续投入的结果。我们在端侧合作伙伴方面范围还挺广泛的,包括手机、汽车、平板PC、眼镜,或者像NAS都有合作,我们非常看好端侧在这上面的作用。
骆轶航:今天上午的嘉宾环节,至少有两家是你们的客户。
张帆:对。可能会更多。比如我们现在在手机里面,绝大多数都有不同程度的合作。
骆轶航:智谱在泛化模型的能力,在端侧上也会有小一点的模型是吧?
张帆:当然。
骆轶航:再结合手机厂商的需求来调整适配。
张帆:是的,他们会把最早设计的原则告知我们,我们提早做调优,为什么比随便做一个模型要快?是因为把新模型都用上了,这是双方的结合。
骆轶航:跟高通的合作,意味着什么?因为高通毕竟不直接生产手机,这个事情本身还是战略意义更大,还是什么具体的意义呢?
张帆:跟高通的合作意味着是端侧模型的最佳实践,得到了芯片厂商的认可。某种程度上,也是芯片与模型最优的调到极佳状态的方案。包括和高通的合作也是,我们花了几个月的时间优化每个节点。相当于给所有的设备厂商做了一个样本,原来它可以划一条基线去实现。高通选择与我们频繁合作,是因为我们去年开始便在应用端深入布局,拓展了一些创新功能。尽管我们不会完整覆盖所有应用,但会在最佳实践的关键环节上提供支持。比如说AIGC我们自己就做了一个可运行的,跟OEM沟通的时候可以齐借鉴和参照。包括这次大会,那个demo视频是我们做的,它结合了很多场景,甚至有多端协同,车手互联(指汽车与手机的连接)。比如这个人可以在手机上说我的帽子找不到了,帮我看一下帽子是不是落在车上了。那从高通角度,它有汽车芯片、手机芯片,就做到了最佳实践。
骆轶航:很多人可能不知道智谱在手机和汽车厂商方面的合作情况,大模型上车是非常重要的一步。
张帆:智谱在端侧投入巨大,很多高校背景的成员加入,我们保持务实的态度,但这些成果尚未广泛传播。
骆轶航:这件事应该让大家知道,成果是非常具体的。你刚才提到AI“上车”,据我所知车上至少跟小鹏有合作,车手互联等等,我们在PC、汽车、眼镜、手机不同的终端,模型适配要做的工作有哪些不一样的地方?
张帆:我理解为这是一个框架,只是在不同的设备上去适应这个设备自己的场景和环境。我们从来不会把端侧单独看,我认为端云结合非常重要,云解决的是上限,端解决的是下限。端的下限是保证高可用性,没有网络也可运行,第二点,隐私更受保护,不想上传的东西不传,第三点,就是成本,特别是手机这样的设备,装机量太多了,很难有人承担这个成本,这个结合就变得很重要。与此同时,我们当然希望端的下限越来越高,云的上限也越来越高。我们把端和云的互动做成一套完整方案,这就要求首先一点,这两个模型最好是同源的,对于 prompt 理解是唯一的,第二点,这里面还有一系列的中间件,什么情况下访问云,什么情况下访问端,是不是有统一的自我认知,是不是有统一的上下文、有记忆力,我们都有标准方案,我们提供一套开箱即用的方案。比如眼镜,端的算力弱就直接走云;比如汽车,端的算力强一点就一边一半,手机占的比例更高,只是一个框架不同的应用。
骆轶航:这么说,智谱的合作策略似乎是提供标准化框架,让厂商自主配置,而不是具体到某一个场景中做交付和定制。我看智谱还是要跟手机厂商做适配的,但是又不想把这些东西卖的特别“碎”。
张帆:我们还是交付了很多东西的,一点不做还是很难落地的,我们会有轻量的交付,帮助企业建立自己的组织。我们尽可能把标准化做的核心,我们使命还是到达AGI。我们试图把问题串起来,变的部分尽量交给伙伴完成,我们解决的是行业下限,我们上面有工具,让每家做不一样的部分。
骆轶航:模型上限合作伙伴自己拔高,智谱来提供一个非常强大的基础模型。
张帆:没错,至少是80分可以搞定了。我们本质是希望榨干每一分算力,我们跟芯片做极致的调优,另外我们在模型上也做调优,我们尝试把端侧任务做微调,调到非常能打。比如几十亿参数的模型能够达到1000多亿参数的效果,所以两端都要调到极致。作为一个企业的下限,这样更加推动AGI快速到来。
骆轶航:这里面又有一个问题,我一直觉得有一个纠结,手机厂商、PC厂商和汽车厂商都是智谱的客户。这些企业尤其是中国企业,大家都是很有野心,大家总是有一种冲动,自己能够干上游的活了,比如小鹏飞行汽车跟特斯拉在很多地方相比,我认为他们对特斯拉还是有一定的理解和向往的,那他怎么会不想向马斯克做xAI那样,做一个自己的大模型?PC厂商和手机厂商难道不想么?他们又是我们非常重要的合作伙伴,那我们怎么去平衡这里面的关系?
张帆:有两个维度,第一个维度,我们做到下限,留了他们做上限的空间,他们不用从头去做,我们给他留了空间,这是有自己的差异。第二,他一定要自研,只是找到ROI最高的自研,我们帮他把ROI比较低的自研解决了。其实今年情况明年比去年好,去年才有“百模大战”,今年大家几乎听不到百模大战了。反过来看海外,苹果自己没做模型,微软还是投了100亿给 OpenAI,没有自己去做模型,包括三星也是。我其实觉得这些公司不是没能力做,而是他们评估下来之后,无论从战略上还是经济上的选择来看,还是跟外部合作更合适一些。
骆轶航:今年手机厂商都愿意公开承认,自己的模型是跟头部大模型一起搞的了。
张帆:我们前两年还跟荣耀发布了联合实验室,在里面做前沿探索和研究,这个在去年看起来比较难,今年看起来就很合适。本质是两个逻辑,第一个是,大家今天特别卷的行业,越来越看ROI,他把60分的资源做到80到90分去,成熟市场开始变得越来越成熟,我们把基础能力做得足够强,另外我们又要给企业留出创意和差异化的空间,这样的框架就做到好的平衡。
骆轶航:等于给它留出空间,让它自己的创造力和灵活性能够发挥,同时他们自己也变得更接地气、更务实。我们也会跟不同企业探索不同的方向,甚至共享知识产权。这个行业出现了比较积极的变化,订单逐渐收敛到几个有能力交付的大模型身上。
张帆:今天大模型也在收拢,包括在市场上,感觉竞争对手的数量明显在变少,而集中在几个头部上了,这是一个好的状态,大家的战略还是有差异化的,不必在同一个事情上低效的创造,而是可以有不同领域的创造反而是更好的。
骆轶航:最后我们聊两个事儿,聊聊智谱对AI Agent的看法,尤其 AI Agent在端侧怎么实现?
张帆:坦率地说,今天市场上对Agent的定义是非常混乱的,几乎万物皆Agent,我们需要重新厘清这个概念。在智谱的理解中,Agent的本质上是让大模型成为独立的智能体,能够在特定领域内自动规划、执行任务,并与外部环境交互和反思。这里有两个维度,第一个维度是“脑”,即大脑的决策、规划和预测部分;第二块,是执行动作,跟外部的连接。“脑”的部分有两个分类,第一个是以动作为节点的流程编排;第二个是以任务为节点的流程编排,这里面我觉得以动作为节点的都不应该叫Agent。
我们有很多动作流程工具,比如查个机票,我建立一个节点,从哪出发到哪去,这是以动作为结点。某种程度不叫Agent,叫低代码。为什么?首先假设用户是按照套路出牌的,是不需要推理的,但是用户一旦不按照套路出牌,我先说去上海它就蒙了,因为节点不同,这件事怎么解决呢?就得画成蜘蛛网,所有东西都要两两相连,形成一个蜘蛛网,一旦两两相连是走不通的,至少95%以上不是真正的Agent,真正的Agent是以任务为节点。你是我的机票预定员,我会告诉你出发时间,出发城市,你需要知道我的出发城市、目的城市以及人数,再给你一个携程,你帮我订票,这是在一个节点里,意味着它能动态调整节点单元的问题。它是以任务为单元,以完成机票预定为目的,比如我去上海,他问你从哪出发,我说我不去上海改成深圳,就可以自动调整,这是非常灵活的。目前来讲端侧不现实,一定是在云侧的,这才是真正的Agent,它能解决复杂问题。
第二个节点是动作上,这个Agent不能光思考,还得跟外界连接。这是我们一些编排工具,智谱清流没有对外发,我们内部做了大量智能体。我们在合作伙伴中试用,会让我们自己开发应用成本降低几倍。一个是脑,一个是手,这两块智谱都在做改进。这两个跟端云没关系,今天脑做复杂任务比云侧更好,对于智能要求高,而‘手’的操作也不一定只局限于端侧,例如通过API访问和浏览网页实际上依赖云端。在虚拟设备(如手机、PC)上的操作,甚至未来在具身智能中的应用,都可能涉及与物理世界的深度连接。这种跨端、跨云、跨物理的协作正是我们对智能体框架的理解。跟刚才的逻辑一样,在不同的设备上,根据不同的算力和要求,做不同的裁切和组合,以适应在设备上达到最优效果,这就是为什么要做个标准。
骆轶航:智谱的技术未来是在云上,智谱的商业落地是在端上,这么说对吗?
张帆:我觉得也不能这么说,它不太好说,如果来定义智谱,智谱的未来还是在AGI,包括这张图全部都是以AGI为目标做的步骤拆解,目前按照这个状态在持续发展。端只是一种媒介一种载体。
骆轶航:好,感谢张帆的分享。
文章来自于“硅星人Pro”,作者“硅星人”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0