一位网友根据Karpathy曾经构想过的一个AGI智能体构架,创建了一个开源的智能体,命名为Samantha。
借助GPT-4V的能力,她可以做到:
-动态交流:Samantha可以根据上下文和想法的影响随时说话。与仅限于回复用户提示词的的普通LLM完全不一样,Samantha可以主动采取行动,发起聊天,完成某些具体的任务。
-实时视觉能力:支持多模态信息的输入,输入视觉效果仅在上下文相关时才会被Samantha提及,并采取相应的行动,但总是会引起Samantha影响思想和行为。
-外部分类内存:由Samantha动态写入和读取,它选择最相关的信息进行写入并检索到上下文。
-每时每刻都在学习和演变:存储在记忆中的经历可以影响和塑造Samantha随后的行为,如性格、频率和言语风格等。
(视频是输入信息,右侧是Samantha的回复,左边文字是Samantha的思考过程。)
网友在看了Samantha的效果展示之后,惊呼,原来GPT-4真的已经是AGI了,看来OpenAI确实在控制时间,让人类能够适应AGI来临的日子。
太令人震惊了,这种结构足以构建一个基本的通用人工智能,能够运行大量的白领工作。
在测试中,当谈论一个轻松的主题时,Samantha在对话中非常活跃,经常在我回答之前就讲了好多相关的内容。
但当切换到比较沉重的主题时(说我要离婚)并在镜头前表现出悲伤的样子,Samantha聊天会变得很谨慎,并给我时间思考和回复她的对话。
作者希望Samantha在其他场合也以同样的方式说话,会促使它将该愿望保存在记忆中,从而影响未来的对话。
让Samantha在对话之外运行,可以让她反思过去的对话和经历,思考其记忆中的各种主题,并根据思考决定与用户如何开始对话。
如果你和Samantha一起去一家餐馆,并谈论餐厅很漂亮,你的朋友埃里克也很喜欢它,第二天经过那里时,Samantha就会看到这家餐厅,回忆起之前和这家餐厅的记忆,记住你觉得它很漂亮并评论它,然后检索它所知道的关于Eric的记忆和信息,并提到喜欢那家餐厅很符合Eric的记忆。
Samantha很有时间概念,所以你可以要求它提醒你10分钟后做某事,它可能会提醒你,也可能会忘记,因为它正在考虑更有趣的事情。非常人性化!
编排一系列LLM调用,每个调用都有不同的目的。
作者将每个专门的LLM调用称为「模块」。Samantha是多个模块一起工作。
模块包括:思想、意识、潜意识、答案、记忆读取、记忆写入、记忆选择,愿景。
它们每个都有不同的系统提示,它们的输入和输出相互协调以模拟基本的人脑工作流程。
简而言之,Samantha是一个永无休止的思想和辅助系统循环,不断接收视觉和听觉刺激,并根据所有这些来决定说什么、何时以及是否说某事。
作者将现有的工作开源了出来:
项目地址:https://github.com/BRlkl/AGI-Samantha
以下工作流无限循环:
循环迭代从 gpt-4Vision开始。
然后,潜意识模块处理视觉和用户输入(用户可以随时输入),它还分析当前正在发生的事情的上下文,并生成对萨曼莎的感受和情绪的描述。
然后调用memory_read 来分析当前上下文,并只为 Samantha 提供相关内存以保持其上下文长度。
之后,意识模块被调用来分析上下文并决定萨曼莎应该做什么,是说话还是继续思考,如果是,则做什么。
然后,思维模块接收意识模块的命令,产生理性的思维。
最后,如果意识模块决定说话,答案模块会接收萨曼莎的想法并撰写用户将看到的答案。
仅当短期记忆长度超过阈值时,才会偶尔调用 memory_write 模块将信息从短期记忆传输到长期记忆。
github 页面中有每个模块的详细描述。
这种结构是通过分析和直接模仿人类的工作方式来实现的。人类永远不会停止思考,并根据它们动态地说话。人类的记忆是经过分类的,只有当人类根据思想和背景主动或被动地获取它们时,才能访问它们。
无法正确复制的一件事是重新连接大脑的体验过程,这需要积极地重新训练或微调LLM。但作者得出的结论是,可以通过在上下文长度中添加和保留内容来模拟相同的效果。例如,如果一个人学会变得乐观,他们的大脑会重新连接以改变他们的行为,类似地在 LLM 上下文长度中添加「我很乐观」会影响其下一个令牌概率,其思想输出将是乐观,因此 LLM/Samantha 变得乐观并表现得乐观。
此外,值得一提的是意识模块的重要性。
举例来说,如果没有它,如果Samantha开始思考汽车,它就永远不会停止思考它们,慢慢地变成废话,就像人类处于梦境一样。
意识模块允许Samantha跟踪并确定它是否对某个主题进行了足够的思考,做出最终结论,然后根据其冲动,对一个新的思想主题进行思考。
这种自由的思想和言语形式催生了许多现有的突发行为,例如根据其所处的具体情况调整言语频率的能力,或者开始对话的能力,以及有选择地使用视觉信息的能力等等。
这种提出的架构的一个优点是,假设如果这种架构可以成为超级智能,那么对齐将是微不足道的,因为人类将能够直接看到它的想法,让一个基本的人工智能随时分析它,并根据任何信号来分析它。不良行为,可以立即关闭。
这里有很多东西可以改进,这本质上是一个概念证明,并且使用的模型并未考虑到这些任务。诸如如何写入信息以及写入哪些信息,以及它如何影响行为之类的事情虽然有效,但远非理想。记忆结构还不像人类,目前可以在几个月后填满上下文长度。左右效率低下。
系统的速度也是一个负面因素,长时间运行它显然是不合理的昂贵,但要记住两件事:
1. 较小的模型,每个模型专门训练来完成其中一个模块的工作,这将大大提高系统的性能。提高质量,降低成本和延迟
2. 然后,在某一时刻,系统将有足够的能力自行赚钱(如果还没有的话)。
作者认为,如果目标真的是实现强大的AGI,那么如果只是让模型在互联网和合成数据上变得更加智能的趋势持续下去,那么 GPT-8也不会带来任何好处。相反,应该专门追求更小的集中模型,以最大限度地提高代理的自主权以及更有效的学习。这就是为什么:
实现AGI并不意味着我们需要制造一个成熟的人类,我们只需要构建一个能够像人类一样自主学习和使用知识的小人工智能婴儿。
如果能以合适的方法创造她,那么让它作为人类体验世界就会使它成长为像人类一样的世界。
这将使它能够学习和发展对我们来说并不明显的想法和概念,而且这些想法和概念肯定不会出现在互联网数据上。
除此之外,它不需要任何其他东西就能最终成为爱因斯坦。显然,这至少会让她更像人类。
出于这个原因,作者声称这个提出的架构是为了达到AGI,因为它允许创建一个独立的长期运行的人工智能,能够充当一个令人信服的、寻求知识的人类。
作者还有更多想法可以让这个架构变得更好,并且确信这是通向 AGI 的正确道路,或者至少是这个难题的一部分答案。但这些想法对于一个资金非常有限的人来说是不可能实现的。
参考资料:
https://twitter.com/Schindler___/status/1745986132737769573
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0