智谱AI COO 张帆：榨干端侧的每一分算力，做极致调优，让AI在硬件上非常能打

7016点击 2024-11-05 15:07

在硅星人AI创造者大会(ACC 2024)上，智谱AI COO张帆与硅星人创始人、CEO 骆轶航进行了一场围绕智谱AI与智能终端的对话，以下为对话实录：

骆轶航：上次在钉钉的panel上，我问了一些比较难回答的问题。

张帆：我已经出汗了。

骆轶航：还好，智谱给了我两个触动，过去，我是沿着GLM-3、GLM-4、GLM-plus、GLM-4-Voice的升级路径理解智谱的，特别是在多模态方面的升级，让我觉得智谱在 AGI （通用人工智能）的实现上有自己的路径，也被很多人称作是中国最像 OpenAI 的公司。然而，最近在高通骁龙峰会上，我看到智谱在端侧模型上与高通达成的全方位合作，这是有区别于 OpenAI 的努力。第二点是，智谱在手机端实现了AI自主操作的功能，也就是AutoGLM。智谱的AutoGLM 有多少人知道？台下可以举个手看看。

你看，将近一半。大家既然关注这个话题，那么我有两个问题。第一，你们什么时候开始研发AutoGLM的？因为前两天Anthropic的Claude Sonnet 3.5 刚刚发布了用AI操作电脑的功能，离得这么近，我显然不能说你们是抄的。第二，AI操作终端设备，背后是在人的意志下操作终端设备，这为什么成为美国和中国的明星AI公司竞相探索的方向？

张帆：其实OpenAI也在探索这个方向。这两个问题都很好。实际上，关于模型操作机器的探索，我们从去年便推出了开源模型，我们尝试通过视觉理解界面来做，不过早期的自动化流程成本非常高。比如每花1元在RPA软件上，需要额外投入3元的交付费用，而且自动化还不够普及化，一个广告弹出便可能导致流程中断。去年，我们发布了Agent，并在设备端持续优化，投入时间超过六个月。恰巧的是，我们和硬件厂商的合作发布时间与Anthropic几乎同步，这说明市场对这个方向的信心。

为什么这个方向重要？今天的大模型智能从简单应用向复杂应用不断演进，尤其在 Agent 到 o1 推理模型的拓展中，使系统逐渐进化到能够持续与外部交互。系统通过将复杂问题拆解为不同步骤，执行的智能增强，从而在特定场景中动态调节模型能力，通过不断验证和调整逐步达到目标。因此，外部连接的重要性日益凸显。

同时连接的方式大致划分清晰。首先是通过API连接到虚拟世界，例如ChatGPT的智能体平台和智谱的流程工具“智谱清流”，这些能力与外部系统对接已经实现。第二个阶段是没有API的系统，门槛会更低，API也不是那么容易申请，更进一步的是与虚拟接口的交互，当前主要解决的是这个阶段。下一个阶段是与物理世界的连接，即具身智能的实现。

“端”是AI能力的下限，“云”是上限，没有单独的端侧

骆轶航：AutoGLM可能意味着大模型进入了一个新的阶段。这是智谱CEO张鹏在中国计算机学演讲的一张图（大屏幕），就是AutoGLM所代表的AI的L3——也就是工具能力阶段。看到这张图时我非常欣慰，因为我们已经在多模态和自然语言交互方面实现了80%的效果，且在逻辑思维的维度上也达到60%，有了自我学习的功能，这让Agent实现更加实际。我想知道，自然语言和多模态领域，你们提到的完成度80%，在端侧也能不打折扣了吗？

张帆：是的，可以在端侧实现。

智谱AI COO 张帆：榨干端侧的每一分算力，做极致调优，让AI在硬件上非常能打

骆轶航：我们看到这次在高通骁龙峰会上的合作，围绕着多模态，尤其在语音、多模态、逻辑推理能力的提升，你们与高通的合作是怎么达成的？

张帆：如您所说，智谱是最早一波投入在端侧上的公司。我们在去年便实现了端侧模型，当时觉得还不够 ready, 但是持续研究没有断，这次在骁龙峰会上，高通首先推荐了智谱模型，也有人来问，说高通很少直接推荐某一家模型，这是第一次。这得益于过去一年多我们与高通的持续沟通，合作涉及两个维度：一是智谱的完整模型矩阵，包括文本、多模态、语音等，跟高通也很契合；二是设备端的契合，智谱也是最早在高通8295汽车芯片上运行模型的公司，差不多能做到100个token/秒的处理速度，此次与高通的联合发布，正是智谱过去一年多在端侧领域持续投入的结果。我们在端侧合作伙伴方面范围还挺广泛的，包括手机、汽车、平板PC、眼镜，或者像NAS都有合作，我们非常看好端侧在这上面的作用。

骆轶航：今天上午的嘉宾环节，至少有两家是你们的客户。

张帆：对。可能会更多。比如我们现在在手机里面，绝大多数都有不同程度的合作。

骆轶航：智谱在泛化模型的能力，在端侧上也会有小一点的模型是吧？

张帆：当然。

骆轶航：再结合手机厂商的需求来调整适配。

张帆：是的，他们会把最早设计的原则告知我们，我们提早做调优，为什么比随便做一个模型要快？是因为把新模型都用上了，这是双方的结合。

骆轶航：跟高通的合作，意味着什么？因为高通毕竟不直接生产手机，这个事情本身还是战略意义更大，还是什么具体的意义呢？

张帆：跟高通的合作意味着是端侧模型的最佳实践，得到了芯片厂商的认可。某种程度上，也是芯片与模型最优的调到极佳状态的方案。包括和高通的合作也是，我们花了几个月的时间优化每个节点。相当于给所有的设备厂商做了一个样本，原来它可以划一条基线去实现。高通选择与我们频繁合作，是因为我们去年开始便在应用端深入布局，拓展了一些创新功能。尽管我们不会完整覆盖所有应用，但会在最佳实践的关键环节上提供支持。比如说AIGC我们自己就做了一个可运行的，跟OEM沟通的时候可以齐借鉴和参照。包括这次大会，那个demo视频是我们做的，它结合了很多场景，甚至有多端协同，车手互联（指汽车与手机的连接）。比如这个人可以在手机上说我的帽子找不到了，帮我看一下帽子是不是落在车上了。那从高通角度，它有汽车芯片、手机芯片，就做到了最佳实践。

骆轶航：很多人可能不知道智谱在手机和汽车厂商方面的合作情况，大模型上车是非常重要的一步。

张帆：智谱在端侧投入巨大，很多高校背景的成员加入，我们保持务实的态度，但这些成果尚未广泛传播。

骆轶航：这件事应该让大家知道，成果是非常具体的。你刚才提到AI“上车”，据我所知车上至少跟小鹏有合作，车手互联等等，我们在PC、汽车、眼镜、手机不同的终端，模型适配要做的工作有哪些不一样的地方？

张帆：我理解为这是一个框架，只是在不同的设备上去适应这个设备自己的场景和环境。我们从来不会把端侧单独看，我认为端云结合非常重要，云解决的是上限，端解决的是下限。端的下限是保证高可用性，没有网络也可运行，第二点，隐私更受保护，不想上传的东西不传，第三点，就是成本，特别是手机这样的设备，装机量太多了，很难有人承担这个成本，这个结合就变得很重要。与此同时，我们当然希望端的下限越来越高，云的上限也越来越高。我们把端和云的互动做成一套完整方案，这就要求首先一点，这两个模型最好是同源的，对于 prompt 理解是唯一的，第二点，这里面还有一系列的中间件，什么情况下访问云，什么情况下访问端，是不是有统一的自我认知，是不是有统一的上下文、有记忆力，我们都有标准方案，我们提供一套开箱即用的方案。比如眼镜，端的算力弱就直接走云；比如汽车，端的算力强一点就一边一半，手机占的比例更高，只是一个框架不同的应用。

智谱AI COO 张帆：榨干端侧的每一分算力，做极致调优，让AI在硬件上非常能打

有能力交付端侧模型的竞争对手越来越少了

骆轶航：这么说，智谱的合作策略似乎是提供标准化框架，让厂商自主配置，而不是具体到某一个场景中做交付和定制。我看智谱还是要跟手机厂商做适配的，但是又不想把这些东西卖的特别“碎”。

张帆：我们还是交付了很多东西的，一点不做还是很难落地的，我们会有轻量的交付，帮助企业建立自己的组织。我们尽可能把标准化做的核心，我们使命还是到达AGI。我们试图把问题串起来，变的部分尽量交给伙伴完成，我们解决的是行业下限，我们上面有工具，让每家做不一样的部分。

骆轶航：模型上限合作伙伴自己拔高，智谱来提供一个非常强大的基础模型。

张帆：没错，至少是80分可以搞定了。我们本质是希望榨干每一分算力，我们跟芯片做极致的调优，另外我们在模型上也做调优，我们尝试把端侧任务做微调，调到非常能打。比如几十亿参数的模型能够达到1000多亿参数的效果，所以两端都要调到极致。作为一个企业的下限，这样更加推动AGI快速到来。

骆轶航：这里面又有一个问题，我一直觉得有一个纠结，手机厂商、PC厂商和汽车厂商都是智谱的客户。这些企业尤其是中国企业，大家都是很有野心，大家总是有一种冲动，自己能够干上游的活了，比如小鹏飞行汽车跟特斯拉在很多地方相比，我认为他们对特斯拉还是有一定的理解和向往的，那他怎么会不想向马斯克做xAI那样，做一个自己的大模型？PC厂商和手机厂商难道不想么？他们又是我们非常重要的合作伙伴，那我们怎么去平衡这里面的关系？

张帆：有两个维度，第一个维度，我们做到下限，留了他们做上限的空间，他们不用从头去做，我们给他留了空间，这是有自己的差异。第二，他一定要自研，只是找到ROI最高的自研，我们帮他把ROI比较低的自研解决了。其实今年情况明年比去年好，去年才有“百模大战”，今年大家几乎听不到百模大战了。反过来看海外，苹果自己没做模型，微软还是投了100亿给 OpenAI，没有自己去做模型，包括三星也是。我其实觉得这些公司不是没能力做，而是他们评估下来之后，无论从战略上还是经济上的选择来看，还是跟外部合作更合适一些。

骆轶航：今年手机厂商都愿意公开承认，自己的模型是跟头部大模型一起搞的了。

张帆：我们前两年还跟荣耀发布了联合实验室，在里面做前沿探索和研究，这个在去年看起来比较难，今年看起来就很合适。本质是两个逻辑，第一个是，大家今天特别卷的行业，越来越看ROI，他把60分的资源做到80到90分去，成熟市场开始变得越来越成熟，我们把基础能力做得足够强，另外我们又要给企业留出创意和差异化的空间，这样的框架就做到好的平衡。

骆轶航：等于给它留出空间，让它自己的创造力和灵活性能够发挥，同时他们自己也变得更接地气、更务实。我们也会跟不同企业探索不同的方向，甚至共享知识产权。这个行业出现了比较积极的变化，订单逐渐收敛到几个有能力交付的大模型身上。

张帆：今天大模型也在收拢，包括在市场上，感觉竞争对手的数量明显在变少，而集中在几个头部上了，这是一个好的状态，大家的战略还是有差异化的，不必在同一个事情上低效的创造，而是可以有不同领域的创造反而是更好的。

AI Agent 的能力只能通过云实现，在端侧是不现实的

骆轶航：最后我们聊两个事儿，聊聊智谱对AI Agent的看法，尤其 AI Agent在端侧怎么实现？

张帆：坦率地说，今天市场上对Agent的定义是非常混乱的，几乎万物皆Agent，我们需要重新厘清这个概念。在智谱的理解中，Agent的本质上是让大模型成为独立的智能体，能够在特定领域内自动规划、执行任务，并与外部环境交互和反思。这里有两个维度，第一个维度是“脑”，即大脑的决策、规划和预测部分；第二块，是执行动作，跟外部的连接。“脑”的部分有两个分类，第一个是以动作为节点的流程编排；第二个是以任务为节点的流程编排，这里面我觉得以动作为节点的都不应该叫Agent。

我们有很多动作流程工具，比如查个机票，我建立一个节点，从哪出发到哪去，这是以动作为结点。某种程度不叫Agent，叫低代码。为什么？首先假设用户是按照套路出牌的，是不需要推理的，但是用户一旦不按照套路出牌，我先说去上海它就蒙了，因为节点不同，这件事怎么解决呢？就得画成蜘蛛网，所有东西都要两两相连，形成一个蜘蛛网，一旦两两相连是走不通的，至少95%以上不是真正的Agent，真正的Agent是以任务为节点。你是我的机票预定员，我会告诉你出发时间，出发城市，你需要知道我的出发城市、目的城市以及人数，再给你一个携程，你帮我订票，这是在一个节点里，意味着它能动态调整节点单元的问题。它是以任务为单元，以完成机票预定为目的，比如我去上海，他问你从哪出发，我说我不去上海改成深圳，就可以自动调整，这是非常灵活的。目前来讲端侧不现实，一定是在云侧的，这才是真正的Agent，它能解决复杂问题。

第二个节点是动作上，这个Agent不能光思考，还得跟外界连接。这是我们一些编排工具，智谱清流没有对外发，我们内部做了大量智能体。我们在合作伙伴中试用，会让我们自己开发应用成本降低几倍。一个是脑，一个是手，这两块智谱都在做改进。这两个跟端云没关系，今天脑做复杂任务比云侧更好，对于智能要求高，而‘手’的操作也不一定只局限于端侧，例如通过API访问和浏览网页实际上依赖云端。在虚拟设备（如手机、PC）上的操作，甚至未来在具身智能中的应用，都可能涉及与物理世界的深度连接。这种跨端、跨云、跨物理的协作正是我们对智能体框架的理解。跟刚才的逻辑一样，在不同的设备上，根据不同的算力和要求，做不同的裁切和组合，以适应在设备上达到最优效果，这就是为什么要做个标准。

骆轶航：智谱的技术未来是在云上，智谱的商业落地是在端上，这么说对吗？

张帆：我觉得也不能这么说，它不太好说，如果来定义智谱，智谱的未来还是在AGI，包括这张图全部都是以AGI为目标做的步骤拆解，目前按照这个状态在持续发展。端只是一种媒介一种载体。

骆轶航：好，感谢张帆的分享。

文章来自于“硅星人Pro”，作者“硅星人”。

智谱AI COO 张帆：榨干端侧的每一分算力，做极致调优，让AI在硬件上非常能打

关键词: AI , AI访谈 , AI硬件 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0