AI Agent,开启AI时代的黄金十年
2024年已经过半,国产大模型的竞争也进入了白热化。
如果说大模型的上半场是在卷基础能力,那么中期的竞速赛中,AI Agent(智能体)的竞争已经被提上了重中之重的议程。
无他,智能体就是应用落地最重要的产品形态。
但从当前情况来看,国内外却已然走向了不同发展路径。微软和OpenAI的GPTs发展受阻,而国内却涌现出越来越多的玩家和智能体开发平台。
如字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆AgentBuilder、阿里云大模型平台百炼、科大讯飞星火智能体平台等。
除这些大厂外,包括智谱AI、面壁智能等大模型创业公司,容联云、思迈特等SaaS公司,钉钉、飞书等协同办公赛道企业等,都在加码智能体开发和应用落地。
无疑,国内大模型的下半场竞争,已经开始“卷”向智能体的开发和应用,并逐渐形成了一个多元化、竞争激烈的生态系统。
那么,微软和OpenAI这一行业风向标都没做好的智能体,为什么国内企业却如此看好?在这场智能体应用之战中,面对日益同质化的产品和服务,各企业又该如何卡位竞争?
AI时代,智能体平台将成为主流的应用开发阵地,但面向C端的分发目前依然要依托当前的流量主阵地——抖音、微信、淘宝等,面向B端的分发则依然要通过各大ISV(第三方软件服务商)。
各家大厂争夺的依然是AI生态,而其他企业则聚焦在垂类场景的落地。
但在此过程中,如何让智能体真正用起来,实现商业变现,则成为考验各企业智能体开发的重要挑战。
一方面是面向C端的应用,智能体能够成为每个人的智能助手,真正的解决日常问题。另一方面则是面向B端企业场景应用,通过整合大语言模型、知识图谱、检索增强生成(RAG)、智能体和管理平台等关键技术和产品手段,为各类政企和机构构建“企业大脑”。
但从当前整个行业发展状态来看,随着微软放弃C端消费市场,Open AI的GPTs也未实现真正的商业利益共享,短期内,智能体在C端真正实现商业化落地的希望并不高,但在需求众多的B端企业服务中,或许能找到合适的落地应用场景,比如办公AI助手、销售助手、研发助手等。
目前,智能体赛道已挤入众多玩家。
据光锥智能不完全统计,互联网大厂中,百度、阿里、腾讯、字节跳动等皆已布局智能体赛道,并推出一站式智能体开发平台。华为方舟实验室此前也发布了一款盘古智能体框架(Pangu-智能体),但目前相关应用信息并不是很多。
在大模型创业公司中,智谱AI、面壁智能,已推出智能体开发平台,月之暗面、零一万物、百川智能等企业,则是以AI应用助手的产品形式为主,暂未推出智能体开发平台。
相比较来说,互联网大厂所面向的用户群体更全,聚焦的场景更广泛,目前更多的还在于让更多的用户能够使用其平台,不断扩大自身AI开发者生态,并借助自身在内容生态等领域的优势,为智能体的开发和变现提供渠道,如腾讯的微信生态、字节抖音、豆包、头条等。
而大模型创业公司,智谱AI在大模型能力上虽然全面对标OpenAI,但商业化却更倾向于走B端道路,所以其智能体平台虽然也支持个人开发者,但更多是引流获得更多用户的数据反馈,商业上倾向于做智能体+行业解决方案的落地。面壁智能则坚定地走向了端侧AI,智能体未来恐怕也是为端侧场景服务更多。
值得一提的是,在原有的企业服务赛道里,智能体焕发出了新活力。
在协同办公场景中,飞书和钉钉都已在智能体赛道进行布局。
此前,钉钉推出了AI助理服务,钉钉上的用户可以根据自己的想法和需求,打造一个在钉钉内部、第三方以及企业自建应用之间“自由穿梭”的AI 智能体。
除AI助理之外,钉钉此前还发布了AI助理市场(AI AgentStore),这就相当于为企业构建了一个数字人才市场,覆盖企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等类目,一个多月以来,上架的AI助理数量已超700个。
而飞书则通过开放的AI服务框架,使企业可以根据业务场景自主选择合适的底层大模型,并创建智能伙伴用于内容创作、数据分析、系统搭建、研发助手等业务场景。
两者的区别在于,飞书认为智能体需要与原先的作业流程深度嵌合,而钉钉则认为智能体相对独立,像员工一样具备流动性和交易价值。
此外,像容联云、思迈特等SaaS企业,此前也展示了自身在智能体赛道的布局和相关产品。
区别于上述企业智能体开发路径,SaaS企业更专注于垂类场景的智能体应用。如容联云的容犀Insight Agent(容犀IA)、容犀Virtual Agent(容犀VA),专注于营销、销售、服务等场景。
另外,还有一些专注于智能体开发的创业公司。
比如Dify.AI,成立于2023年5月,是一个基于LLM应用开发平台,支持超过10万个应用的构建,集成了Backend as Service和LLMOps的理念,适用于构建生成式AI原生应用,主打基于任何LLM都可以创建AI 智能体。
还有专门针对金融行业打造智能体开发平台的深擎科技;聚焦为企业开发虚拟“数字员工”的实在智能;既有面向C端智能体开发服务,又有面向B端企业提供AI数字员工解决方案和云服务的汇智智能等等。
由此也不难看出,在这场智能体应用的战场中,不同的企业所聚焦的场景不同,最终想要实现的目的也不同,大厂想要生态,小厂想要聚焦到场景。
于互联网大厂而言,更注重AI生态的构建,实际售卖对底层大模型和云算力的调用能力;而飞书、钉钉所争夺的,则是聚焦到了企业办公场景中,瞄准的是企业内部知识库的智能体化,主打企业数智化转型的一张牌。
容联云、思迈特等所争夺的,则是局部场景的进一步智能化,比如智能客服、智能投顾等。聚焦智能体的创业公司,也同样如此,虽然是推出了智能体开发平台,但更多的还是聚焦重点应用场景,推出相关智能体开发服务,所谋求的还是在场景中找寻智能体商业化变现路径。但相对于此前有积累的互联网大厂和企业服务公司,从0到1找场景、找需求是一件很不容易的事。
当前,诸多玩家已经在智能体赛道形成了多元化竞争格局,不同的企业依据自身的优势,聚焦在不同场景中做智能体开发应用。
在此过程中,谁能够率先走通智能体的商业化落地,并实现真正的变现,谁才能够真正的走到最后。而具有强大资源优势的大厂,或将对创企造成碾压式竞争压力。
当前,智能体赛道已经处于爆发前夜,行业中也急需寻找可落地的商业模式。
从应用角度来说,C端智能体的定位是个人助理,自然交互是基本要求,个性化是提升体验的关键。B端智能体则需要提供更丰富的插件选项和更灵活的工作流设计功能,且通常还需要集成数据标注、模型微调等功能,以更好地满足企业对模型垂直能力的需求。
通俗来说,C端智能体需要有创新的体验效果,B端则需要扎实的专业能力。
开发C端智能体应用主要有2种方式:
一种,是个人开发者基于智能体开发平台,自主开发一款自己想要的智能体,比如此前扣子平台上,一位北京5年级的小学生利用扣子平台开发了一款英语外教智能体,供自己日常使用。
另一种,则是企业自己开发的智能体AI助手,供C端用户使用,软件类型的如月之暗面的kimi,硬件类型的如科大讯飞的AI学习机等。
字节扣子平台上爆款Bot应用
基于大语言模型能力,现阶段C端智能体更多是以对话类AI聊天机器人的形式出现,不管是个人用户自己开发的智能体,还是企业推出的相关应用产品,基本都是你问我答的形式。
如教育场景中的AI老师、AI学习助手;在旅游出行场景中是AI旅游规划师,可以帮助用户进行旅游规划;游戏场景中,则可以进行AI角色扮演等。
“如果每个人都能拥有一个足够智能和好用的助理,这种科技带来的平权将催生重大的产业变革。这可能是C端应用的一个重要方向,也是令人兴奋的前景。” 智源研究院院长王仲远认为。
但截至目前,C端智能体并未出现一款真正的爆款应用。
事实上,从C端用户角度来说,智能体更多的是被集成在APP中,但从当前大模型能力来说,智能体尚不能够为用户带来颠覆式的AI体验效果。
从个人开发者的角度来说,虽然现阶段智能体开发平台能够一句话就开发出一款智能体,但想要开发出一款真正好用的智能体,还是需要有极强的编程能力,背后涉及到如何输入专业明确的指令词(Prompt)、如何调动合适的知识库、工作流等众多插件能力。
字节跳动豆包MarsCode市场运营负责人赵旭东 表示,个人开发者开发智能体应用,还要看其追求什么,如果目的是为了快速盈利,就可以利用扣子平台搭建一个前端产品,就能够切中其具体的需求场景。“但如果想要打造一个极其优美的页面,个人开发者是很难做出来。”
于企业开发的面向C端场景的智能体应用产品,整体体验效果虽更好,却并不能够完全突破场景的桎梏,并且,在具体场景中,此前已经有相对应的爆款应用。
钉钉总裁叶军也曾指出,百万千万级的 GPTs 目前看相对来说形式比较单一,没有传统软件那样强大的业务理解能力,因此目前 GPT Store 中的应用很难成为高价值产品。“尽管 GPTs 的创建能力很强,甚至一天可以创建几十个,但它目前还代替不了传统软件市场。”
ChatGPT推出的不同形态的Agent(智能体)能力
如在搜索领域,除百度搜索,近年来抖音、小红书、今日头条等APP也都能够为用户提供信息搜索,且这些产品在AI时代中也在基于AI重塑整个产品的业务体系,能够为用户提供智能体服务。
因此,包括月之暗面的kimi、昆仑万维的天工AI等AI助手应用,能够随时回答用户提出的各种问题、速读文件、整理资料等,其整体活跃用户数量已经超过百万级,在一众AI助手里已经是第一梯队,但也很难达到千万级的爆款应用。
从这些角度来说,以大模型能力为基础的智能体,短期内在C端出现爆款应用的希望并不是很高。相反在B端企业服务场景中,由于专业性要求高,反而能够找到合适落地场景。
在光锥智能不完全统计中,除互联网大厂百度、字节跳动和腾讯的智能体开发平台,支持所有开发者进行智能体开发外,其他绝大多数是面向B端企业,做企业智能体开发和服务。
“我们和GPTs完全不一样。”叶军此前如此说道。
钉钉和飞书作为专注于企业办公赛道的平台,其具有天然的B端场景优势。
于企业而言,企业应用生成式AI的核心目的,是为了提高企业经营研发效率,而生成式AI在企业中应用的关键,则在于企业知识库数据的喂养。通过结合企业自身的知识库,企业级的智能体能够为企业内部发展提供高效的运营流程和产品服务体验。
比如在HR场景中,人力资源部门主要职能包括人力资源规划、招聘、培训、绩效管理、薪酬管理、员工关系管理等方面,且每一家企业都有自己的人事相关流程内容。
通过将内部人事数据的积累,企业可以形成对应的知识库数据,并将其“投喂给”智能体,就可以开发出一款最懂这家企业人事流程管理内容的AI助手。
以飞书为例,去年11月,其发布了“飞书智能伙伴”等系列AI产品,飞书用户可以通过创建一位“AI同事”的方式,实现会议要点提炼,生成文档、表格、导图,数据分析等功能。
飞书的企业用户,则可以通过自身的知识库,搭建一个更懂企业运营流程的智能体,比如HR 智能体,其可为内部员工提供运营流程的相关问题解答,包括如何报销、如何走出差流程等。
B端企业场景中,不同的业务,不同的部门,其实对生成式AI都有需求,且都能够通过企业知识库搭建智能体,以提高业务运营效率。
因此,B端场景的智能体应用,更注重具体的应用场景,以及企业自身知识库能力的搭建。
但是,相比较来说,B端企业用户会更注重企业数据隐私安全,此前有业内人士对光锥智能表示,搭建智能体时需要外挂知识库,担心数据泄漏问题,“一不小心可能就上传了”。
“Dify.AI可实现企业本地化部署,适合做企业知识库搭建。”一位开发者如此说道。
此外,众多企业聚焦B端赛道,更重要的还在于能够真正的实现智能体应用的变现。
其中重点变现方式则是以企业调用大模型API接口为主,创业公司Dify.AI的收费方式则是按照APP的会员制形式,以企业具体的需求,按年和按月付费,并提供不同的服务内容。
综合来看现阶段智能体赛道的竞争格局,从生态资源和技术实力层面来说,互联网大厂无疑凭借着全面的技术生态和强大的资源整合能力,占据着智能体市场的主导地位。
但B端需求多,且有很多小的场景,于其他中小企业而言,只要能够基于自身的技术和产品优势,持续深耕,也能在智能体市场中占据一席之地。
不过,当前B端需求虽多,以及存在切实的场景需求,能够使智能体快速落地应用,但小而专的场景中,最终是否能够真的“跑”出一个超级应用,并实现盈利,还存在诸多不确定。
AI时代,软件应用生态正在被重构,APP Store正逐渐转向Agent Store。
在IDC发布的《2024 AIGC 应用层十大趋势》中曾提到,新一轮AIGC之争,也将会是一场流量入口之争。
不管是C端,还是B端,中国企业在智能体赛道所争抢的,本质上则是AI时代的流量分发入口,尤其是以互联网大厂为主。
据统计,目前阿里通过钉钉,构建了AI Agent Store;字节跳动扣子平台、腾讯云元器、百度智能云千帆AgentBuilder等平台,都具备智能体商店功能,并支持一键分发多个渠道。
其中,钉钉主要支持将平台上的AI助理分享给平台内部用户;字节跳动扣子平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。
百度则提供了百度生态矩阵分发路径,打通百度搜索、小度智能硬件平台、文心一言、地图、车机等多场景、多设备,实现“开发+分发+运营+变现”一体化赋能。
腾讯云元器则支持发布到元器、元宝、QQ、微信客服等平台,同时支持以API的形式供三方软件进行调用,初始用户有一个亿token体验使用额度,额度用完后,将无法调用,已上线API付费能力,付费后,可支持更多次调用。
事实上,相比于中小企业聚焦某些重点场景做智能体开发和应用,于互联网大厂而言,决胜的关键则在于其生态运营能力,以及前端是否有足够的场景化牵引力。
毕竟,在互联网时代和移动互联网时代,大厂们都已经构建了各自的流量分发入口,那么在AI时代,大厂们也都存在着FOMO(不可错过)心理。
中国智能体市场正处于快速发展阶段,多类型企业的参与为市场注入了无限活力,一个比互联网和移动互联还繁荣的黄金年代,正在徐徐拉起大幕。
文章来源于“光锥智能”,作者“白鸽”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales