ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
OpenAI看好的方向,文心智能体技术抢先爆发!
5103点击    2024-11-21 14:08

11月19日,2024年世界互联网大会领先科技奖揭晓了。



在来自24个国家和地区的270项科技成果中,共有20项成果入选领先科技奖。


作为AI领域的关键代表,获此殊荣的百度文心智能体技术尤为令人瞩目。



最近,Scaling Law撞墙论成为热门话题,大模型是新的科技泡沫吗?


横跨互联网几个时代的巨头百度告诉我们:所谓「AI应用难落地」,「商业化没途径」,还是因为看得不够远。


正如国家卓越工程师、百度首席技术官王海峰所言,智能体,就是最能激发大模型潜力的应用方向。


随着智能体技术的突破,更多的创新将得到激发。而智能体给社会经济发展带来的巨大价值,也将近在眼前了。


AI智能体,像人一样「慢思考」


百度的智能体,背后究竟是怎样的技术原理?这就要从人类的认知系统讲起了。


在心理学研究中,将人类的认知系统分为两种:系统1和系统2。


系统1代反应快,但容易出错;而系统2思考慢一些,但更准确、理性。


基于这一认知特点,百度开发出了突破性的慢思考机制——系统2,其核心就是「思考模型」。



「思考模型」包含了四个关键要素:理解、规划、反思和进化。


在这四个环节紧密配合之下,AI系统便能够可靠地执行任务、持续自我进化,并在一定程度上将思考过程白盒化。


为了实现真正的智能思考,百度在基础大模型之上开展了三个层面突破性的增强训练。


首先是,思考过程的有监督精调,让模型像人类一样进行任务拆解、自主规划。


假设你要计划一次苏州园林之旅,「思考模型」不仅能理解你的需求,还会像人类导游一样,考虑到景点分布、开放时间等因素,为你规划出最优路线。


其次是,行为决策的偏好学习,让模型学会运用工具和决策。


比如统计《师说》中,「师」字出现的频率,模型会主动调用搜索工具获取全文,再调用代码解释器,对其出现的次数进行精确的计算。


最后是结果反思的增强学习,让模型学会检查工具的结果,并动态调整行为。


这一过程就像人类对信息真实性会产生质疑一样,AI也学会了审视数据的准确性。


举个栗子,在统计国庆档电影票房排行数据时,出现了两个不同来源的差异数据:一个是2.15亿元,另一个是2.35亿元。


这时,模型会主动分析可能的原因(数据更新的不同时间、不同统计来源等等),然后进一步检索寻求验证,最终确保信息的可靠性。


那么,训练「思考模型」的数据从何而来?毕竟人类思考过程,往往只会发生在每个人脑海中,很难外显数字化,因此急难获取相应的数据。


对此,百度创造性构建了「数据合成」的虚拟环境。


在提示构建阶段,基于领域知识自动合成业务逻辑,通过工具模拟器灵活模拟业务所需的工具,通过用户模拟器生成用户可能的问题或指令,并与智能体交互。


然后,根据输入的提示,思考模型自动探索思考和行动的不同路径,并通过分步执行来模拟智能体的行动过程,最终生成高质量的合成数据。


更进一步地,基于这些合成数据,再利用RL对「思考模型」进行优化。


最终,让机器实现像人一样的思考和行动,自主完成复杂任务,同时在环境中持续学习、自主进化。


智能体的工作流


斯坦福计算机系客座教授曾指出,AI智能体工作流将会在今年取得巨大的进步,甚至还会超越下一代基础模型。


我们都有过这样的经历,询问ChatGPT/Claude等模型后,却得不到满意的输出。


但智能体的关键作用之一,便是提供反馈帮LLM去改进输出,最后获得更好的响应。


其实,一个基础的智能体架构,应该包含了记忆、规划、工具、行动四大方面。


前OpenAI研究员Lilian Weng——LLM Powered Autonomous Agents


而且,在具体工作流中,智能体又有四种不同的设计模式。


首先是反思(reflection),大模型能够自己检查工作,并提出改进方法。


其次是工具使用(tool use),能够主动利用网络搜索、函数调用等任何功能,完成信息收集数据处理,或采取行动。


紧接着是规划(planning),提出一个多步计划并实现目标。


最后是多智能体协作(multi-agent collaboration),多个AI智能体一同协作,分配任务并讨论想法。


总结来说,AI智能体的出现并非让LLM直接生成最终输出,而且多次提示大模型,最终构建出更高质量的输出。


始于模型,但不止于模型


百度智能体背靠着的文心大模型技术,让它在落地应用上有了坚实的基础。


自去年3月16日发布文心一言以来,百度文心大模型不断升级,知识增强、检索增强以及智能体等技术也在不断进化。


今年9月以来,百度文心大模型的日均API调用量,已经暴增至15亿水平,短短半年增长7.5倍。


究其原因在于,它极大地改善了幻觉问题。


凭借搜索引擎的技术积累,百度引入了检索增强机制。通过搜索互联网上已有的知识,让大模型给出更准确的回答。


百度研发的「理解-检索-生成」协同优化的检索增强技术,极大提升了大模型技术及应用效果。


在文本生成领域,检索增强的应用已经成熟。下一步,就解决文生图的幻觉问题了。


为此,百度的研究团队将百度搜索的亿级图片资源,跟强大的基础模型能力结合了起来,开发出了基于检索增强的文生图技术iRAG,让图片生成的效果更加真实。


现在,iRAG既可以生成精确的图片,也可以进行泛化生图。


具体来说,大模型会首先对用户需求进行分析理解,自动规划精确或泛化方案,比如对哪些实体进行增强;接着在增强阶段,对需要增强的实体,检索并选择相应的参考图。


最后在生成阶段,自研的多模可控生图大模型,就通过局部注意力实现图像的高泛化生成,另外还能通过整体注意力计算,进行高精确的图像生成。


正如李彦宏所说——


过去24个月,AI行业的最大变化是什么?是大模型基本消除了幻觉。


从此,AI大模型可以快速走向智能体,迎接原生应用大爆发了。


智能体,开启AI应用新纪元


如今,凭借着门槛低、天花板高,既能让人人都上手,又能做出复杂强大应用的特点,智能体正在成为AI应用最主流的形态。


就连OpenAI的CEO Sam Altman也表示,「下一个关键突破,就是AI智能体」。



放眼全世界,各大科技巨头、独角兽在AI领域里掀起了一波智能体技术竞赛的高潮。


然而,鲜为人知的是,在这波智能体热潮之前,百度就已经完成了关键的布局。


百度,已然领先


互联网时代,百度搜索为核心的应用,实现了人类发展史上第一次知识普惠。


进入下一个周期——大模型时代,AI将让无数普通人都有望成为超级个体。这个赋能者,无疑就是智能体。


李彦宏表示,现在大模型战中所谓的「领先12个月」,「落后18个月」,其实都没那么重要。在这个完全竞争的市场环境中,无论选择什么方向,都会有很多竞争对手。


大模型热到了第三年,我们已经经历了大模型应用发展必经的几个阶段。


过去一年许多目光都聚焦在多模态,但其实,智能体才是目前最能激发大模型潜力的应用方向。


原因就在于,它的门槛确实很低。


大模型变成应用有很多不确定性,但智能体却是非常直接、高效、简单的方式。基础模型需要靠应用才能显现出价值,而智能体是一个几乎「放之四海而皆准」的大模型应用。


因为门槛足够低,甚至都不需要编程,只要用「人话」把工作流说清楚即可,比互联网时代制作一个网页还简单。


智能体正在爆发,只是现在基数还比较小,大家的体感没有那么强烈。让更多人进来、发挥聪明才智,指不定哪条路跑通了,就是一个Super APP。


打造全新智能体生态


如今,百度已经构建了一个强大的智能体生态系统。


百度的智能体技术充分释放了文心大模型的潜力,成为引领行业变革的新引擎。


IDC、沙利文、中国软件评测中心等多家权威评测显示,文心大模型超过国际领先大模型平均表现,位居中国第一、国际第一梯队。


来源:IDC《中国大模型市场主流产品评估,2024》


如今,在营销、客户服务、企业办公、代码编程等领域中,智能体正重塑各行各业升级的新范式。


另一方面,百度基于智能体技术构建的「文心智能体平台」,进一步降低了开发门槛,让AI赋能变得触手可及。



开发者们可以基于自身行业特点和应用场景需求,利用平台提供的多样化能力、工具,打造出大模型时代的AI原生应用。


基于易开发、能分发、有钱赚三大特点,让这个平台实现了价值闭环。


百度搜索AI问答


比如,38岁失业女性答主自创建了「情感咨询导师晓晓」智能体,不仅有了意外的收入,还获得了新的职业机会。



从小到9岁的学生,到50岁退休阿姨,任何人都能在开发应用中,找到一席之地。


目前,文心智能体平台已吸引超过80万开发者、15万家企业。


不写代码,就能实现任意想法了


目前,百度的智能体技术正在加速LLM深度融入社会各行业的各个环节,助力企业与社会服务智能化升级。


在政务领域,AI法律咨询助手能为劳动者提供及时准确的法律指导。


在农业领域,「农民院士智能体」让科技助农变得更加便捷高效。



在教育领域,它能为师生带来更智能化、个性化的教学新体验。


在辅助编程开发中,智能体降低了普通人开发应用门槛,也提升了专业程序员的编码效率。


这里,尤为值得一提的是百度在「多智能体协作」领域的最新成果——无代码开发工具「秒哒」。


用李彦宏的话说,它是「迄今为止人类历史最复杂的多智能体协作工具」。



多智能体协作,是基于文心大模型的思考和规划能力,实现了对不同智能体的调度和编排。


在策划、内容、开发等工作中,有小组长、策划、小编、程序员和质检员五个智能体相互协作,甚至还能自动识别bug,调用各种工具。


在演讲现场,李彦宏曾以萝卜快跑新技术发布会为例,直接搭建了一个活动报名系统。


用中文描述需求,补充带有大会时间地点主题的文档,就可以指挥秒哒中的多个智能体协作了。



其中,小组长智能体会进行规划调度,会将任务拆解并召唤各智能体来完成任务。


策划智能体负责将策划设计解决方案拆分成i核心需求、内容结构、开发需求、数据收集四个子任务。


小编智能体会编辑邀请函中的所有文字和媒体内容,包括发布展望、时间地点信息、封面图等。


程序员智能体通过写代码,制作和部署网页。



这个过程中,通过场景知识的增强,提升了复杂代码生成的质量与稳定性,能高效实现用户所需的功能。


最后,质检员智能体会检查代码bug,修复,进行代码测试。


一套流程下来,活动邀请函立马就生成了。



同时,百度的另一个多智能体应用——代码助手「文心快码」则升级到了3.0版本,全面进入智能体时代。



具体来说就是,在开发全流程中,会有多个智能体进行流水线协同,进而大幅提升程序员的工作质量和效率。




在推动传统产业转型升级的同时,百度智能体技术还催生了在智能家居、智能电商等新兴产业发展。


更重要的是,它还创造出智能体工程师、训练师等全新职业,推动人才培养模式创新,为产业结构升级提供源源不断人才支持。


站在新的历史节点上,百度文心智能体正重新定义AI的发展方向。


在全球科技巨头还在为智能体技术摩拳擦掌之时,他们已用扎实的技术积累,以及丰富的实践经验,验证了智能体技术的巨大潜力。


多次获奖,是全行业的肯定


仔细回看,其实不止在今年,此前百度就曾五次在世界互联网大会乌镇峰会上获此殊荣,得奖理由分别是百度大脑、小度助手、Apollo、飞桨、知识增强大语言模型技术。


今年的百度文心智能体,已经是第六次获奖。


不仅如此,百度大模型相关技术还曾获国家技术发明二等奖、中国专利金奖、吴文俊人工智能科技进步特等奖、中国电子学会科技进步一等奖等多个奖项。



从第一届世界互联网大会到现在的整整11年间,百度率先预判出下一步技术的突破方向,同时也不忘将技术与实践紧密结合,迅速抓住当下市场的痛点。


百度大脑、小度助手(DuerOS)、Apollo自动驾驶平台、飞桨开源深度学习平台等,都是百度在行业内先行一步的探索,全部取得了成功。


这些领域内的前沿技术,带动的不仅是百度的发展,也以引领者的姿态,推动了全行业的技术进步,让全行业的技术发展坐上了快车。


更关键的是,百度并非只局限于发展单一的技术,而是将格局放得更大,致力于建立一个包含硬件、软件、服务和平台的完整生态系统。


AI的未来究竟在何方?这个答案,或许就藏在百度智能体技术的一个个突破里。


从去年10月的前瞻布局,到如今智能体的蓬勃生长;从系统2思考模型创新,到智能体赋能万千企业的实践。


百度正用不断创新的技术力量,为每个领域带去智能化的蝶变。


文章来自于微信公众号 “新智元”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/