11月19日,2024年世界互联网大会领先科技奖揭晓了。
在来自24个国家和地区的270项科技成果中,共有20项成果入选领先科技奖。
作为AI领域的关键代表,获此殊荣的百度文心智能体技术尤为令人瞩目。
最近,Scaling Law撞墙论成为热门话题,大模型是新的科技泡沫吗?
横跨互联网几个时代的巨头百度告诉我们:所谓「AI应用难落地」,「商业化没途径」,还是因为看得不够远。
正如国家卓越工程师、百度首席技术官王海峰所言,智能体,就是最能激发大模型潜力的应用方向。
随着智能体技术的突破,更多的创新将得到激发。而智能体给社会经济发展带来的巨大价值,也将近在眼前了。
百度的智能体,背后究竟是怎样的技术原理?这就要从人类的认知系统讲起了。
在心理学研究中,将人类的认知系统分为两种:系统1和系统2。
系统1代反应快,但容易出错;而系统2思考慢一些,但更准确、理性。
基于这一认知特点,百度开发出了突破性的慢思考机制——系统2,其核心就是「思考模型」。
「思考模型」包含了四个关键要素:理解、规划、反思和进化。
在这四个环节紧密配合之下,AI系统便能够可靠地执行任务、持续自我进化,并在一定程度上将思考过程白盒化。
为了实现真正的智能思考,百度在基础大模型之上开展了三个层面突破性的增强训练。
首先是,思考过程的有监督精调,让模型像人类一样进行任务拆解、自主规划。
假设你要计划一次苏州园林之旅,「思考模型」不仅能理解你的需求,还会像人类导游一样,考虑到景点分布、开放时间等因素,为你规划出最优路线。
其次是,行为决策的偏好学习,让模型学会运用工具和决策。
比如统计《师说》中,「师」字出现的频率,模型会主动调用搜索工具获取全文,再调用代码解释器,对其出现的次数进行精确的计算。
最后是结果反思的增强学习,让模型学会检查工具的结果,并动态调整行为。
这一过程就像人类对信息真实性会产生质疑一样,AI也学会了审视数据的准确性。
举个栗子,在统计国庆档电影票房排行数据时,出现了两个不同来源的差异数据:一个是2.15亿元,另一个是2.35亿元。
这时,模型会主动分析可能的原因(数据更新的不同时间、不同统计来源等等),然后进一步检索寻求验证,最终确保信息的可靠性。
那么,训练「思考模型」的数据从何而来?毕竟人类思考过程,往往只会发生在每个人脑海中,很难外显数字化,因此急难获取相应的数据。
对此,百度创造性构建了「数据合成」的虚拟环境。
在提示构建阶段,基于领域知识自动合成业务逻辑,通过工具模拟器灵活模拟业务所需的工具,通过用户模拟器生成用户可能的问题或指令,并与智能体交互。
然后,根据输入的提示,思考模型自动探索思考和行动的不同路径,并通过分步执行来模拟智能体的行动过程,最终生成高质量的合成数据。
更进一步地,基于这些合成数据,再利用RL对「思考模型」进行优化。
最终,让机器实现像人一样的思考和行动,自主完成复杂任务,同时在环境中持续学习、自主进化。
斯坦福计算机系客座教授曾指出,AI智能体工作流将会在今年取得巨大的进步,甚至还会超越下一代基础模型。
我们都有过这样的经历,询问ChatGPT/Claude等模型后,却得不到满意的输出。
但智能体的关键作用之一,便是提供反馈帮LLM去改进输出,最后获得更好的响应。
其实,一个基础的智能体架构,应该包含了记忆、规划、工具、行动四大方面。
前OpenAI研究员Lilian Weng——LLM Powered Autonomous Agents
而且,在具体工作流中,智能体又有四种不同的设计模式。
首先是反思(reflection),大模型能够自己检查工作,并提出改进方法。
其次是工具使用(tool use),能够主动利用网络搜索、函数调用等任何功能,完成信息收集数据处理,或采取行动。
紧接着是规划(planning),提出一个多步计划并实现目标。
最后是多智能体协作(multi-agent collaboration),多个AI智能体一同协作,分配任务并讨论想法。
总结来说,AI智能体的出现并非让LLM直接生成最终输出,而且多次提示大模型,最终构建出更高质量的输出。
百度智能体背靠着的文心大模型技术,让它在落地应用上有了坚实的基础。
自去年3月16日发布文心一言以来,百度文心大模型不断升级,知识增强、检索增强以及智能体等技术也在不断进化。
今年9月以来,百度文心大模型的日均API调用量,已经暴增至15亿水平,短短半年增长7.5倍。
究其原因在于,它极大地改善了幻觉问题。
凭借搜索引擎的技术积累,百度引入了检索增强机制。通过搜索互联网上已有的知识,让大模型给出更准确的回答。
百度研发的「理解-检索-生成」协同优化的检索增强技术,极大提升了大模型技术及应用效果。
在文本生成领域,检索增强的应用已经成熟。下一步,就解决文生图的幻觉问题了。
为此,百度的研究团队将百度搜索的亿级图片资源,跟强大的基础模型能力结合了起来,开发出了基于检索增强的文生图技术iRAG,让图片生成的效果更加真实。
现在,iRAG既可以生成精确的图片,也可以进行泛化生图。
具体来说,大模型会首先对用户需求进行分析理解,自动规划精确或泛化方案,比如对哪些实体进行增强;接着在增强阶段,对需要增强的实体,检索并选择相应的参考图。
最后在生成阶段,自研的多模可控生图大模型,就通过局部注意力实现图像的高泛化生成,另外还能通过整体注意力计算,进行高精确的图像生成。
正如李彦宏所说——
过去24个月,AI行业的最大变化是什么?是大模型基本消除了幻觉。
从此,AI大模型可以快速走向智能体,迎接原生应用大爆发了。
如今,凭借着门槛低、天花板高,既能让人人都上手,又能做出复杂强大应用的特点,智能体正在成为AI应用最主流的形态。
就连OpenAI的CEO Sam Altman也表示,「下一个关键突破,就是AI智能体」。
放眼全世界,各大科技巨头、独角兽在AI领域里掀起了一波智能体技术竞赛的高潮。
然而,鲜为人知的是,在这波智能体热潮之前,百度就已经完成了关键的布局。
互联网时代,百度搜索为核心的应用,实现了人类发展史上第一次知识普惠。
进入下一个周期——大模型时代,AI将让无数普通人都有望成为超级个体。这个赋能者,无疑就是智能体。
李彦宏表示,现在大模型战中所谓的「领先12个月」,「落后18个月」,其实都没那么重要。在这个完全竞争的市场环境中,无论选择什么方向,都会有很多竞争对手。
大模型热到了第三年,我们已经经历了大模型应用发展必经的几个阶段。
过去一年许多目光都聚焦在多模态,但其实,智能体才是目前最能激发大模型潜力的应用方向。
原因就在于,它的门槛确实很低。
大模型变成应用有很多不确定性,但智能体却是非常直接、高效、简单的方式。基础模型需要靠应用才能显现出价值,而智能体是一个几乎「放之四海而皆准」的大模型应用。
因为门槛足够低,甚至都不需要编程,只要用「人话」把工作流说清楚即可,比互联网时代制作一个网页还简单。
智能体正在爆发,只是现在基数还比较小,大家的体感没有那么强烈。让更多人进来、发挥聪明才智,指不定哪条路跑通了,就是一个Super APP。
如今,百度已经构建了一个强大的智能体生态系统。
百度的智能体技术充分释放了文心大模型的潜力,成为引领行业变革的新引擎。
IDC、沙利文、中国软件评测中心等多家权威评测显示,文心大模型超过国际领先大模型平均表现,位居中国第一、国际第一梯队。
来源:IDC《中国大模型市场主流产品评估,2024》
如今,在营销、客户服务、企业办公、代码编程等领域中,智能体正重塑各行各业升级的新范式。
另一方面,百度基于智能体技术构建的「文心智能体平台」,进一步降低了开发门槛,让AI赋能变得触手可及。
开发者们可以基于自身行业特点和应用场景需求,利用平台提供的多样化能力、工具,打造出大模型时代的AI原生应用。
基于易开发、能分发、有钱赚三大特点,让这个平台实现了价值闭环。
百度搜索AI问答
比如,38岁失业女性答主自创建了「情感咨询导师晓晓」智能体,不仅有了意外的收入,还获得了新的职业机会。
从小到9岁的学生,到50岁退休阿姨,任何人都能在开发应用中,找到一席之地。
目前,文心智能体平台已吸引超过80万开发者、15万家企业。
目前,百度的智能体技术正在加速LLM深度融入社会各行业的各个环节,助力企业与社会服务智能化升级。
在政务领域,AI法律咨询助手能为劳动者提供及时准确的法律指导。
在农业领域,「农民院士智能体」让科技助农变得更加便捷高效。
在教育领域,它能为师生带来更智能化、个性化的教学新体验。
在辅助编程开发中,智能体降低了普通人开发应用门槛,也提升了专业程序员的编码效率。
这里,尤为值得一提的是百度在「多智能体协作」领域的最新成果——无代码开发工具「秒哒」。
用李彦宏的话说,它是「迄今为止人类历史最复杂的多智能体协作工具」。
多智能体协作,是基于文心大模型的思考和规划能力,实现了对不同智能体的调度和编排。
在策划、内容、开发等工作中,有小组长、策划、小编、程序员和质检员五个智能体相互协作,甚至还能自动识别bug,调用各种工具。
在演讲现场,李彦宏曾以萝卜快跑新技术发布会为例,直接搭建了一个活动报名系统。
用中文描述需求,补充带有大会时间地点主题的文档,就可以指挥秒哒中的多个智能体协作了。
其中,小组长智能体会进行规划调度,会将任务拆解并召唤各智能体来完成任务。
策划智能体负责将策划设计解决方案拆分成i核心需求、内容结构、开发需求、数据收集四个子任务。
小编智能体会编辑邀请函中的所有文字和媒体内容,包括发布展望、时间地点信息、封面图等。
程序员智能体通过写代码,制作和部署网页。
这个过程中,通过场景知识的增强,提升了复杂代码生成的质量与稳定性,能高效实现用户所需的功能。
最后,质检员智能体会检查代码bug,修复,进行代码测试。
一套流程下来,活动邀请函立马就生成了。
同时,百度的另一个多智能体应用——代码助手「文心快码」则升级到了3.0版本,全面进入智能体时代。
具体来说就是,在开发全流程中,会有多个智能体进行流水线协同,进而大幅提升程序员的工作质量和效率。
在推动传统产业转型升级的同时,百度智能体技术还催生了在智能家居、智能电商等新兴产业发展。
更重要的是,它还创造出智能体工程师、训练师等全新职业,推动人才培养模式创新,为产业结构升级提供源源不断人才支持。
站在新的历史节点上,百度文心智能体正重新定义AI的发展方向。
在全球科技巨头还在为智能体技术摩拳擦掌之时,他们已用扎实的技术积累,以及丰富的实践经验,验证了智能体技术的巨大潜力。
仔细回看,其实不止在今年,此前百度就曾五次在世界互联网大会乌镇峰会上获此殊荣,得奖理由分别是百度大脑、小度助手、Apollo、飞桨、知识增强大语言模型技术。
今年的百度文心智能体,已经是第六次获奖。
不仅如此,百度大模型相关技术还曾获国家技术发明二等奖、中国专利金奖、吴文俊人工智能科技进步特等奖、中国电子学会科技进步一等奖等多个奖项。
从第一届世界互联网大会到现在的整整11年间,百度率先预判出下一步技术的突破方向,同时也不忘将技术与实践紧密结合,迅速抓住当下市场的痛点。
百度大脑、小度助手(DuerOS)、Apollo自动驾驶平台、飞桨开源深度学习平台等,都是百度在行业内先行一步的探索,全部取得了成功。
这些领域内的前沿技术,带动的不仅是百度的发展,也以引领者的姿态,推动了全行业的技术进步,让全行业的技术发展坐上了快车。
更关键的是,百度并非只局限于发展单一的技术,而是将格局放得更大,致力于建立一个包含硬件、软件、服务和平台的完整生态系统。
AI的未来究竟在何方?这个答案,或许就藏在百度智能体技术的一个个突破里。
从去年10月的前瞻布局,到如今智能体的蓬勃生长;从系统2思考模型创新,到智能体赋能万千企业的实践。
百度正用不断创新的技术力量,为每个领域带去智能化的蝶变。
文章来自于微信公众号 “新智元”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/