ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
智谱AI COO 张帆:榨干端侧的每一分算力,做极致调优,让AI在硬件上非常能打
6690点击    2024-11-05 15:07


在硅星人AI创造者大会(ACC 2024)上,智谱AI COO张帆与硅星人创始人、CEO 骆轶航进行了一场围绕智谱AI与智能终端的对话,以下为对话实录:


骆轶航:上次在钉钉的panel上,我问了一些比较难回答的问题。


张帆:我已经出汗了。


骆轶航:还好,智谱给了我两个触动,过去,我是沿着GLM-3、GLM-4、GLM-plus、GLM-4-Voice的升级路径理解智谱的,特别是在多模态方面的升级,让我觉得智谱在 AGI (通用人工智能)的实现上有自己的路径,也被很多人称作是中国最像 OpenAI 的公司。然而,最近在高通骁龙峰会上,我看到智谱在端侧模型上与高通达成的全方位合作,这是有区别于 OpenAI 的努力。第二点是,智谱在手机端实现了AI自主操作的功能,也就是AutoGLM。智谱的AutoGLM 有多少人知道?台下可以举个手看看。


你看,将近一半。大家既然关注这个话题,那么我有两个问题。第一,你们什么时候开始研发AutoGLM的?因为前两天Anthropic的Claude Sonnet 3.5 刚刚发布了用AI操作电脑的功能,离得这么近,我显然不能说你们是抄的。第二,AI操作终端设备,背后是在人的意志下操作终端设备,这为什么成为美国和中国的明星AI公司竞相探索的方向?


张帆:其实OpenAI也在探索这个方向。这两个问题都很好。实际上,关于模型操作机器的探索,我们从去年便推出了开源模型,我们尝试通过视觉理解界面来做,不过早期的自动化流程成本非常高。比如每花1元在RPA软件上,需要额外投入3元的交付费用,而且自动化还不够普及化,一个广告弹出便可能导致流程中断。去年,我们发布了Agent,并在设备端持续优化,投入时间超过六个月。恰巧的是,我们和硬件厂商的合作发布时间与Anthropic几乎同步,这说明市场对这个方向的信心。


为什么这个方向重要?今天的大模型智能从简单应用向复杂应用不断演进,尤其在 Agent 到 o1 推理模型的拓展中,使系统逐渐进化到能够持续与外部交互。系统通过将复杂问题拆解为不同步骤,执行的智能增强,从而在特定场景中动态调节模型能力,通过不断验证和调整逐步达到目标。因此,外部连接的重要性日益凸显。


同时连接的方式大致划分清晰。首先是通过API连接到虚拟世界,例如ChatGPT的智能体平台和智谱的流程工具“智谱清流”,这些能力与外部系统对接已经实现。第二个阶段是没有API的系统,门槛会更低,API也不是那么容易申请,更进一步的是与虚拟接口的交互,当前主要解决的是这个阶段。下一个阶段是与物理世界的连接,即具身智能的实现。


“端”是AI能力的下限,“云”是上限,没有单独的端侧


骆轶航:AutoGLM可能意味着大模型进入了一个新的阶段。这是智谱CEO张鹏在中国计算机学演讲的一张图(大屏幕),就是AutoGLM所代表的AI的L3——也就是工具能力阶段。看到这张图时我非常欣慰,因为我们已经在多模态和自然语言交互方面实现了80%的效果,且在逻辑思维的维度上也达到60%,有了自我学习的功能,这让Agent实现更加实际。我想知道,自然语言和多模态领域,你们提到的完成度80%,在端侧也能不打折扣了吗?


张帆:是的,可以在端侧实现。



骆轶航:我们看到这次在高通骁龙峰会上的合作,围绕着多模态,尤其在语音、多模态、逻辑推理能力的提升,你们与高通的合作是怎么达成的?


张帆:如您所说,智谱是最早一波投入在端侧上的公司。我们在去年便实现了端侧模型,当时觉得还不够 ready, 但是持续研究没有断,这次在骁龙峰会上,高通首先推荐了智谱模型,也有人来问,说高通很少直接推荐某一家模型,这是第一次。这得益于过去一年多我们与高通的持续沟通,合作涉及两个维度:一是智谱的完整模型矩阵,包括文本、多模态、语音等,跟高通也很契合;二是设备端的契合,智谱也是最早在高通8295汽车芯片上运行模型的公司,差不多能做到100个token/秒的处理速度,此次与高通的联合发布,正是智谱过去一年多在端侧领域持续投入的结果。我们在端侧合作伙伴方面范围还挺广泛的,包括手机、汽车、平板PC、眼镜,或者像NAS都有合作,我们非常看好端侧在这上面的作用。


骆轶航:今天上午的嘉宾环节,至少有两家是你们的客户。


张帆对。可能会更多。比如我们现在在手机里面,绝大多数都有不同程度的合作。


骆轶航:智谱在泛化模型的能力,在端侧上也会有小一点的模型是吧?


张帆当然。


骆轶航再结合手机厂商的需求来调整适配。


张帆:是的,他们会把最早设计的原则告知我们,我们提早做调优,为什么比随便做一个模型要快?是因为把新模型都用上了,这是双方的结合。


骆轶航跟高通的合作,意味着什么?因为高通毕竟不直接生产手机,这个事情本身还是战略意义更大,还是什么具体的意义呢?


张帆:跟高通的合作意味着是端侧模型的最佳实践,得到了芯片厂商的认可。某种程度上,也是芯片与模型最优的调到极佳状态的方案。包括和高通的合作也是,我们花了几个月的时间优化每个节点。相当于给所有的设备厂商做了一个样本,原来它可以划一条基线去实现。高通选择与我们频繁合作,是因为我们去年开始便在应用端深入布局,拓展了一些创新功能。尽管我们不会完整覆盖所有应用,但会在最佳实践的关键环节上提供支持。比如说AIGC我们自己就做了一个可运行的,跟OEM沟通的时候可以齐借鉴和参照。包括这次大会,那个demo视频是我们做的,它结合了很多场景,甚至有多端协同,车手互联(指汽车与手机的连接)。比如这个人可以在手机上说我的帽子找不到了,帮我看一下帽子是不是落在车上了。那从高通角度,它有汽车芯片、手机芯片,就做到了最佳实践。


骆轶航:很多人可能不知道智谱在手机和汽车厂商方面的合作情况,大模型上车是非常重要的一步。


张帆:智谱在端侧投入巨大,很多高校背景的成员加入,我们保持务实的态度,但这些成果尚未广泛传播。


骆轶航这件事应该让大家知道,成果是非常具体的。你刚才提到AI“上车”,据我所知车上至少跟小鹏有合作,车手互联等等,我们在PC、汽车、眼镜、手机不同的终端,模型适配要做的工作有哪些不一样的地方?


张帆:我理解为这是一个框架,只是在不同的设备上去适应这个设备自己的场景和环境。我们从来不会把端侧单独看,我认为端云结合非常重要,云解决的是上限,端解决的是下限。端的下限是保证高可用性,没有网络也可运行,第二点,隐私更受保护,不想上传的东西不传,第三点,就是成本,特别是手机这样的设备,装机量太多了,很难有人承担这个成本,这个结合就变得很重要。与此同时,我们当然希望端的下限越来越高,云的上限也越来越高。我们把端和云的互动做成一套完整方案,这就要求首先一点,这两个模型最好是同源的,对于 prompt 理解是唯一的,第二点,这里面还有一系列的中间件,什么情况下访问云,什么情况下访问端,是不是有统一的自我认知,是不是有统一的上下文、有记忆力,我们都有标准方案,我们提供一套开箱即用的方案。比如眼镜,端的算力弱就直接走云;比如汽车,端的算力强一点就一边一半,手机占的比例更高,只是一个框架不同的应用。



有能力交付端侧模型的竞争对手越来越少了


骆轶航:这么说,智谱的合作策略似乎是提供标准化框架,让厂商自主配置,而不是具体到某一个场景中做交付和定制。我看智谱还是要跟手机厂商做适配的,但是又不想把这些东西卖的特别“碎”。


张帆:我们还是交付了很多东西的,一点不做还是很难落地的,我们会有轻量的交付,帮助企业建立自己的组织。我们尽可能把标准化做的核心,我们使命还是到达AGI。我们试图把问题串起来,变的部分尽量交给伙伴完成,我们解决的是行业下限,我们上面有工具,让每家做不一样的部分。


骆轶航:模型上限合作伙伴自己拔高,智谱来提供一个非常强大的基础模型。


张帆没错,至少是80分可以搞定了。我们本质是希望榨干每一分算力,我们跟芯片做极致的调优,另外我们在模型上也做调优,我们尝试把端侧任务做微调,调到非常能打。比如几十亿参数的模型能够达到1000多亿参数的效果,所以两端都要调到极致。作为一个企业的下限,这样更加推动AGI快速到来。


骆轶航:这里面又有一个问题,我一直觉得有一个纠结,手机厂商、PC厂商和汽车厂商都是智谱的客户。这些企业尤其是中国企业,大家都是很有野心,大家总是有一种冲动,自己能够干上游的活了,比如小鹏飞行汽车跟特斯拉在很多地方相比,我认为他们对特斯拉还是有一定的理解和向往的,那他怎么会不想向马斯克做xAI那样,做一个自己的大模型?PC厂商和手机厂商难道不想么?他们又是我们非常重要的合作伙伴,那我们怎么去平衡这里面的关系?


张帆有两个维度,第一个维度,我们做到下限,留了他们做上限的空间,他们不用从头去做,我们给他留了空间,这是有自己的差异。第二,他一定要自研,只是找到ROI最高的自研,我们帮他把ROI比较低的自研解决了。其实今年情况明年比去年好,去年才有“百模大战”,今年大家几乎听不到百模大战了。反过来看海外,苹果自己没做模型,微软还是投了100亿给 OpenAI,没有自己去做模型,包括三星也是。我其实觉得这些公司不是没能力做,而是他们评估下来之后,无论从战略上还是经济上的选择来看,还是跟外部合作更合适一些。


骆轶航:今年手机厂商都愿意公开承认,自己的模型是跟头部大模型一起搞的了。


张帆我们前两年还跟荣耀发布了联合实验室,在里面做前沿探索和研究,这个在去年看起来比较难,今年看起来就很合适。本质是两个逻辑,第一个是,大家今天特别卷的行业,越来越看ROI,他把60分的资源做到80到90分去,成熟市场开始变得越来越成熟,我们把基础能力做得足够强,另外我们又要给企业留出创意和差异化的空间,这样的框架就做到好的平衡。


骆轶航等于给它留出空间,让它自己的创造力和灵活性能够发挥,同时他们自己也变得更接地气、更务实。我们也会跟不同企业探索不同的方向,甚至共享知识产权。这个行业出现了比较积极的变化,订单逐渐收敛到几个有能力交付的大模型身上。


张帆今天大模型也在收拢,包括在市场上,感觉竞争对手的数量明显在变少,而集中在几个头部上了,这是一个好的状态,大家的战略还是有差异化的,不必在同一个事情上低效的创造,而是可以有不同领域的创造反而是更好的。


AI Agent 的能力只能通过云实现,在端侧是不现实的


骆轶航最后我们聊两个事儿,聊聊智谱对AI Agent的看法,尤其 AI Agent在端侧怎么实现?


张帆:坦率地说,今天市场上对Agent的定义是非常混乱的,几乎万物皆Agent,我们需要重新厘清这个概念。在智谱的理解中,Agent的本质上是让大模型成为独立的智能体,能够在特定领域内自动规划、执行任务,并与外部环境交互和反思。这里有两个维度,第一个维度是“脑”,即大脑的决策、规划和预测部分;第二块,是执行动作,跟外部的连接。“脑”的部分有两个分类,第一个是以动作为节点的流程编排;第二个是以任务为节点的流程编排,这里面我觉得以动作为节点的都不应该叫Agent。


我们有很多动作流程工具,比如查个机票,我建立一个节点,从哪出发到哪去,这是以动作为结点。某种程度不叫Agent,叫低代码。为什么?首先假设用户是按照套路出牌的,是不需要推理的,但是用户一旦不按照套路出牌,我先说去上海它就蒙了,因为节点不同,这件事怎么解决呢?就得画成蜘蛛网,所有东西都要两两相连,形成一个蜘蛛网,一旦两两相连是走不通的,至少95%以上不是真正的Agent,真正的Agent是以任务为节点。你是我的机票预定员,我会告诉你出发时间,出发城市,你需要知道我的出发城市、目的城市以及人数,再给你一个携程,你帮我订票,这是在一个节点里,意味着它能动态调整节点单元的问题。它是以任务为单元,以完成机票预定为目的,比如我去上海,他问你从哪出发,我说我不去上海改成深圳,就可以自动调整,这是非常灵活的。目前来讲端侧不现实,一定是在云侧的,这才是真正的Agent,它能解决复杂问题。


第二个节点是动作上,这个Agent不能光思考,还得跟外界连接。这是我们一些编排工具,智谱清流没有对外发,我们内部做了大量智能体。我们在合作伙伴中试用,会让我们自己开发应用成本降低几倍。一个是脑,一个是手,这两块智谱都在做改进。这两个跟端云没关系,今天脑做复杂任务比云侧更好,对于智能要求高,而‘手’的操作也不一定只局限于端侧,例如通过API访问和浏览网页实际上依赖云端。在虚拟设备(如手机、PC)上的操作,甚至未来在具身智能中的应用,都可能涉及与物理世界的深度连接。这种跨端、跨云、跨物理的协作正是我们对智能体框架的理解。跟刚才的逻辑一样,在不同的设备上,根据不同的算力和要求,做不同的裁切和组合,以适应在设备上达到最优效果,这就是为什么要做个标准。


骆轶航:智谱的技术未来是在云上,智谱的商业落地是在端上,这么说对吗?


张帆:我觉得也不能这么说,它不太好说,如果来定义智谱,智谱的未来还是在AGI,包括这张图全部都是以AGI为目标做的步骤拆解,目前按照这个状态在持续发展。端只是一种媒介一种载体。


骆轶航:好,感谢张帆的分享。


文章来自于“硅星人Pro”,作者“硅星人”。


关键词: AI , AI访谈 , AI硬件 , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0