AI数字员工来了
10月8日,诺贝尔物理学奖一经公布,瞬间惊爆了世界。甚至获奖人之一的杰弗里·E.辛顿(Geoffrey E. Hinton)本人,都大吃一惊。
“我大吃一惊,根本不知道发生了什么,”当诺贝尔委员会通过电话联系到辛顿时,他正在加州的一个廉价旅馆里,那里的网络和手机信号都不好。
全世界震惊之余,都在问这么一个问题:究竟为什么诺贝尔物理学奖给了AI科学家?这就要从AI研究的源起说起。
人工智能(AI)的由来可以追溯到20世纪50年代,而人类第一台通用电子计算机埃尼阿克(Electronic Numerical Integrator and Computer,ENIAC) 于1945年诞生。当时,科学家们突发奇想,开始探索如何将人类的智能和思考方式运用到计算机中,以实现类似于人类智能的行为和思维。
这些早期的研究集中在推理、学习、规划、自然语言处理等领域,并在此基础上逐步建立起了AI的基础理论。著名的图灵测试是由人工智能之父艾伦·图灵于1950年提出的一种测试,用于评估计算机是否能够表现出与人类相同的智能水平。在图灵测试中,一个人与计算机程序进行对话。如果这个人无法确定自己是在与另一个人还是计算机程序对话,那么这个程序就通过了测试。
这个测试成为衡量人工智能是否能够达到人类智能水平的标准。图灵提出这个测试的目的是探讨“机器思考”这一问题,他认为如果一台计算机能够通过这个测试,那么它就可以被认为具有了人类的智能水平。
随着计算机技术的不断发展,图灵测试逐渐成为人工智能领域的重要指标和研究方向。很多研究人员致力于开发能够通过图灵测试的计算机程序,以此来实现人工智能的梦想。
到了20世纪70年代,科学家们开始使用逻辑推理和规则来实现智能,这被称为“符号主义AI”(Symbolic AI)。“符号主义AI”主要基于人类专家的知识,将这些知识表示成一系列的规则和公式,然后使用逻辑推理来解决问题。例如,人类专家可以提供一个疾病的症状和治疗方法的知识库,计算机程序可以使用这些规则和公式来推断出一个病人的病因和治疗方案。然而,“符号主义AI”很难处理不完备或不确定的信息,需要明确的规则和公式来解决问题,所以无法处理一些复杂的现实问题。
20世纪80年代,AI进入了一个新的发展阶段,即“连接主义AI”(Connectionist AI)。它的灵感来源于生物神经网络(neural networks),通过建立大量的神经元之间的连接来模拟人类大脑的工作方式。“连接主义AI”的核心思想是学习,通过处理大量数据并自动调整神经网络的权重和参数,来完成各种不同的任务,如图像识别、语音识别、自然语言处理等。这种方法强调了从数据中学习和发现模式,而不再是依赖人类专家提供的规则和知识。
真正引爆AI新浪潮的关键节点是在2012年,由这次诺奖得主辛顿等人开发的AlexNet深度神经网络,在ImageNet图像识别挑战赛上以远超第二名的成绩获胜,将图像识别错误率从当时的26%降至15%,引领了图像识别领域的新一轮革命。
仅仅三年后,在2015年,AI就首次在图像识别领域超越了人类。当时,一个名为ResNet的深度神经网络在ImageNet挑战赛中取得了比人类更高的图像分类准确性,错误率仅为3.57%。自那时起,随着更深层次和更高级别的神经网络的出现,AI在图像分类、目标检测、人脸识别等方面的准确性不断提高,逐渐在更多任务里超越了人类的表现,AI也因此被推广到各个领域大放异彩,这里就要讲到我们眼中目前AI领域走向未来最重要的趋势之一:AI Agent。
长期以来,全球的研究人员一直在追求与人类相当、甚至超越人类水平的通用人工智能(Artificial General Intelligence,AGI)。其实早在20世纪50 年代, “智能”的概念就被扩展到了人工实体,这些人工智能实体通常被称为——代理(Agent)。Agent这一概念起源于哲学,是指一种拥有欲望、信念、意图以及采取行动能力的实体。在AI领域,这一术语被赋予了全新的含义——具有自主性、反应性、积极性和社交能力特征的智能实体。AI Agent可以被理解为一个由AI技术加持的,有协调组织能力的数字员工,它变得更聪明了,可以感知周围的环境,有逻辑和计划地解决问题,并且能够独立地思考和完成任务。
随着ChatGPT的诞生已过去近两年,如今生成式人工智能应用已经不再局限于聊天。AI开始全方面地融入人类的生产、生活。其中最具代表性的技术便是AI Agent(智能体),例如辅助文档办公的Microsoft 365 Copilot、辅助编程的GitHub Copilot、辅助绘图设计的Adobe Firefly等(Copilot即为副驾驶之意)。
各个领域的AI Agent应用百花齐放。在2024年 Snowflake 峰会开发者日上,人工智能领域的领军人物吴恩达 (Andrew Ng) 发表了题为“AI 代理工作流及其推动 AI 进展的潜力 (How AI Agentic workflows could drive more Al progress than even the next generation of foundation models)”的演讲,他指出:AI Agent工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。
相比ChatGPT 只能被动地回答问题,AI Agent仅需给定一个目标,它就能够针对目标独立思考并做出行动,根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,主动实现目标。随着生成式人工智能基础模型的不断进步,AI Agent在其任务上的自动化程度也逐渐加深。因此,如果说目前的AI Agent还只能胜任“副驾驶”,那么随着其自主性的不断进步,也许在不久的将来会诞生真正的AI“主驾驶”。
2024年,北京智源人工智能研究院、新加坡南洋理工大学和北京大学提出了通用计算机控制(General Computer Control, GCC)项目,目的是希望Agent能像人类一样使用屏幕、键盘和鼠标来完成计算机上的所有任务。
过去,人工智能研究主要集中在游戏场景中,而GCC则为通用人工智能研究提供了更广泛的应用场景。这一项目的核心是通用计算机控制Agent框架Cradle,它使Agent能够直接控制键盘、鼠标,并与任何软件交互,无论是开源还是闭源的软件,甚至能够玩如《荒野大镖客2》这样的商业3A游戏。这一技术的实现,表明Agent不仅可以在复杂的虚拟环境中执行任务,还可以在实际应用中表现出色,从而为大模型和AI Agent应用的落地与产业化提供了重要支持。
除了对Agent处理复杂任务能力的探索,2023年斯坦福大学的人机交互研究小组还创造了一个包含25个Agent的AI小镇,用以模拟社会互动。这个AI小镇设有大学、公寓、咖啡馆和书店等基础设施,Agent在其中居住并进行日常活动,尽管他们没有意识到自己生活在模拟环境中。这些Agent不仅能去工作、闲聊、组织社交活动、结交新朋友,甚至能坠入爱河,每个Agent都有独特的个性和背景故事。通过这种社会化模拟,展示了Agent在复杂的人类社交环境中的适应能力和行为多样性。
通过以上两个案例,我们可以看到用AI模拟人类社会以及解决复杂任务的能力已经成为一种研究趋势。Agent已经能够在虚拟环境中模拟和执行各种复杂任务,不仅限于游戏和模拟环境,还包括与各种软件的交互和社会化生活。这表明Agent具备成为AI员工的潜力,可以在实际工作中承担更多复杂的任务。
清华大学的研究团队尝试了AI员工的一些早期探索,他们打造了一个名为ChatDev的虚拟软件公司,由各种具有不同角色的Agent运作,包括CEO(首席执行官)、CPO(首席产品官)、CTO(首席技术官)、程序员、代码审查员、测试员和艺术设计师等。这些Agent组成了一个多代理组织结构, 这家虚拟公司被设定了一个使命是“通过编程革新数字世界”。
ChatDev内部的Agent通过参与专门的功能研讨会进行协作, 从需求分析,设计、编码、测试和到最终的文档编写,依次完成软件开发各个阶段的任务。在“公司”中,每个bot分别扮演CEO、程序员、设计师等不同角色,涵盖了游戏研发涉及的所有岗位。
数字员工实际上是以大语言模型(LLM)驱动的,而LLM目前仍存在幻觉和数据污染等问题。事实上,不仅是AI程序员,其他岗位的AI员工距离企业商业运作中真想要雇佣的安全、可信的数字劳力都还有不小的距离。
为了加速实现这个目标,来自复旦大学的技术团队开发了一个名为AI2Apps的一站式AI员工开发与端侧服务平台,将Devin的开发模式复刻到了任何岗位的AI员工上。团队自研了一套基于浏览器的Agent操作系统,提供全套的开发人员工具,包括终端、文件管理、Agent调试、代码编辑器和浏览器沙盒环境等,让开发者能在“建筑师Agent”的主导下完成任何岗位AI员工团队的构建与组合。经过AI2Apps的端侧部署后,AI员工可以通过浏览器在各种用户设备中既“无所不能”又“有所不为”,模拟人类员工办公的同时又避免了直接操控用户设备。
这条路,还是充满乐观前景的。
AI Agent可以被视为智能时代的一种新质生产力,它与人类劳动力的关系类似于电子货币与现实货币的关系。
Agent可以和传统的组织管理办法相结合,将复杂问题分解成更小的子问题,优化现有工作流程,提升整体业务的反应速度和处理能力。Agent还可以是工程化思想的切实工具,用来对抗个体工作的不确定性。Agent不仅可以用工程化的思想提高群体的工作均值,还能实现行业know-how的具象化。Agent能够分析和处理大量企业私有文档和资料,将隐含在其中的专业知识和行业know-how进行数字化和系统化。通过不断标注和反馈,专家的个人知识可以丰富和完善知识库,形成知识闭环,使系统能够持续学习并提升性能。总之,AI Agent的出现将深深改变未来人机交互的方式,使得专业知识能够被更轻松地复制与传承。
此外,AI Agent可以很好地应用在企业场景中,可以部署在边缘设备上——即仅在本地处理和分析数据,而无需将数据上传到云端的大模型。这种方式不仅减少了数据传输的延迟,还有效保护了企业的各种敏感信息和独家私密数据。
可以预见,随着AI Agent研究的不断发展,Agent和人类的合作将越来越广泛,人类的合作网络也将升级为一个人类与AI Agent的自动化合作体系,人类社会的生产结构可能将会出现变革。未来的某一天,我们人类将不再局限于简单的重复性劳动,而是通过与AI的协同合作,从事更高层次的创新工作,从而开拓一个美丽新世界。
文章来自于微信公众号“复旦商业知识”,作者“徐增林、周潪剑、李筑聪、陈嘉翔、徐涛”
【开源免费】ai-renamer是一个用AI帮你做文件夹或者图片命名的项目。该项目会根据文件夹或者图片内容来为文件进行重新命名,让你的文件管理更加便利。
项目地址:https://github.com/ozgrozer/ai-renamer
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】ai-town是MIT授权的一个AI虚拟小镇,该项目可以让研发人员轻松构建和定制你自己的AI小镇版本,其中居住在小镇的AI角色可以进行交流和社交。该项目受到研究论文《生成代理:人类行为的交互模拟》的启发。
项目地址:https://github.com/a16z-infra/ai-town
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT