大型语言模型(LLM)在文本生成和理解方面展现出惊人能力,但在面对需要结构化推理和系统性问题解决的场景时却常常表现不佳。
这种局限性主要源于AI缺乏明确的认知策略,导致其在处理复杂问题时难以保持连贯性、适应性和深度分析能力。
作为开发Agent产品的工程师,你可能已经意识到,仅依靠大规模参数和海量训练数据无法解决这一根本性问题,我们需要一种能够系统引导AI思维过程的方法论。
Guilford的智力结构模型(Structure of Intellect,SOI)是认知科学领域的基础框架,源自20世纪50年代。
这一模型由J.P. Guilford于1956年首次提出,并在1967年和1988年进行了进一步发展和完善。
令人惊讶的是,这个诞生于半个多世纪前的心理学理论,如今在AI领域找到了全新的应用价值。
SOI模型通过对人类智能的系统分类,为我们提供了一套可操作的思维导图,将智能活动划分为三个核心维度:
操作(operations,定义认知功能)、内容(contents,代表被处理的信息类型)和产品(products,描述输出的结构形式)。
将这一系统化的认知框架引入到提示工程中,可以帮助你构建更强大的AI Agent,
使其能够有效选择和应用不同认知能力,从而在复杂问题解决场景中展现出更接近人类的推理能力和适应性。
认知是感知、识别和理解信息的能力,包括识别模式、理解关系以及在各种情境中解释含义。
这一操作是获取知识的基础,为高阶思维奠定基础,在AI Agent设计中,强化这一能力意味着让系统能够从复杂数据中提取关键信息和识别潜在规律。
例如,当你的Agent面对客户查询时,它需要首先识别出查询的核心问题和关键词,而不仅仅是表面文字。
记忆过程涉及编码、存储和检索信息,包括短期和长期记忆功能,使个体能够在需要时回忆事实、概念和经验。
有效的记忆功能对于学习、问题解决和决策至关重要,在Agent开发中,这意味着系统需要能够保持上下文连贯性,并从过去的交互中提取相关经验用于当前任务。
例如,客服Agent应该能够记住用户之前提到的问题,即使在多轮对话中也不会"遗忘"重要信息。
发散性思维是针对给定问题或刺激生成多种多样反应的能力,涉及创造性思考、头脑风暴和不急于判断地探索各种可能性。
这一认知过程在创新、艺术表达和科学发现中至关重要,
对于AI Agent而言,这意味着系统应该能够为用户问题提供多角度、多方案的解决思路,而不是局限于单一固定的回答模式。
例如,当用户询问如何提高工作效率时,Agent应该能够从时间管理、工具使用、环境优化等多个角度提供建议。
收敛性思维是将多种可能性缩小到找出单一最佳或最符合逻辑的解决方案的过程,需要批判性思考、推理和系统性评估来确定最有效的答案。
这种思维方式在结构化和基于规则的领域的问题解决中至关重要,在Agent系统中,这体现为能够从多个可能的解决方案中筛选出最适合当前情境的唯一答案。
例如,当用户需要一个明确的建议时,Agent应该能够在分析多个因素后,提供一个最优的、具体的行动方案。
评估是根据标准、证据或逻辑一致性评估信息、想法或解决方案的准确性、有效性和可行性的能力。
这一能力在决策、自我调节和批判性分析中发挥关键作用,对于高级AI Agent来说,这意味着系统不仅能够生成答案,还能够评估这些答案的质量和适用性。
当你的Agent提供多个解决方案时,它应该能够根据用户需求、资源限制和可行性等因素,对这些方案进行评级或优先级排序。
图形-视觉信息以静态图像、形状、图表或空间模式的形式呈现,包括识别和操作视觉元素,如图片、图表和几何图形。
这类处理在建筑、工程和视觉艺术等领域至关重要,在多模态Agent开发中,这要求系统能够理解和生成视觉信息,例如识别用户上传图像中的关键元素。
当用户问"这张图片中的问题是什么"时,具备图形-视觉处理能力的Agent能够分析图像内容,识别出视觉异常或关键信息点。
图形-听觉信息以声音、音调、节奏或口语的形式被感知和处理,这一类别包括听觉模式识别、音乐感知和语音处理。
它在语言理解、音乐能力和听觉记忆中发挥着基础性作用,对于需要处理语音输入的Agent,这意味着不仅要理解语音内容,
还要识别语调、重音和情感等非文本信息。例如,客服Agent应该能够从用户的语音中识别出焦虑或不满的情绪,即使用户没有直接表达。
符号信息通过抽象符号、数字、代码或符号表示,包括数学表达式、计算机编程语言和基于逻辑的符号。
符号处理对于数学、密码学和形式逻辑等学科至关重要,在AI Agent中,这要求系统能够理解和操作抽象符号系统,如数学公式、编程代码或逻辑表达式。
当用户请求解决数学问题或代码调试时,Agent需要能够精确理解符号表达的含义,并在同一符号系统中提供解答。
语义信息通过词语、概念和有意义的语言结构表达,涉及理解定义、阅读理解和语言推理。
语义处理是沟通、文学和知识获取的基础,这是大多数LLM最擅长的领域,涉及对自然语言的深度理解和生成。
在专业领域Agent开发中,这意味着系统需要理解行业术语和概念之间的关系,例如医疗Agent需要理解症状描述与可能疾病之间的语义联系。
行为信息与人类互动、情绪和社交线索相关,涉及识别和解释非语言手势、面部表情、肢体语言和人际动态。
行为内容在心理学、社会学、领导力和社交智能中至关重要,对于社交或服务型Agent,这意味着系统需要理解和适当回应用户的情感状态和社交需求。
高级客服Agent应该能够识别用户是否焦急、困惑或不满,并相应地调整其回应的语气和内容,展现情感智能。
单元是被处理为离散、单一实体的最小信息元素,例如包括单个字母、数字、单词、声音或物体。
识别和回忆单元是基本感知、记忆和知识获取的基础,对于AI Agent来说,这是最基础的能力,涉及识别和提取信息中的基本元素。
例如,当用户提问中包含具体数字或专有名词时,Agent需要准确识别这些关键单元,并将其用于后续处理。
类别是基于共享特征或共同属性组织多个单元的群组或分类,包括识别模式、识别概念相似性以及将对象、单词或想法分类为有意义的集合。
类别形成对于学习、分类学和泛化至关重要,在信息分类Agent中,这意味着系统需要能够根据相关特征将输入归类,例如将用户查询自动分类到相应的服务类别。
关系是基于可识别的关联在两个或多个单元或类别之间的连接,这些可以包括因果关系、类比、层次结构、序列或逻辑联系。
辨别关系的能力对于推理、问题解决和推断性思维至关重要,在开发决策支持Agent时,这一能力体现为系统能够识别输入变量之间的相互作用和因果关系。
例如,金融分析Agent需要理解不同经济指标之间的相互关系,以提供有意义的市场预测。
系统是由多个相互关联的单元、类别和关系组成的复杂结构,涉及将元素组织成一个整体,如框架、网络或概念模型。
理解系统在工程学、组织理论和战略规划等学科中至关重要,对于复杂领域的Agent,这意味着能够构建整合多方面信息的完整框架。
例如,医疗诊断Agent需要将症状、病史、检查结果整合到一个诊断系统中,而不是孤立地分析每一条信息。
转换是修改、改变或重新解释现有信息以创建新版本或视角的能力,包括语言改写、重新配置方程式、重新构想艺术设计和为新应用调整创意。
转换是创造力、创新和问题解决的核心,对于创意助手型Agent,这意味着系统能够对输入进行重新构思或调整。
例如,内容创作Agent应该能够将同一信息转换为适合不同受众的多种表达形式,或者将专业术语转换为易于理解的通俗解释。
含义是从给定信息集合中得出的预测、推论或结论,涉及扩展已知信息以预测结果、推导后果或提出理论可能性。
这种思维形式对于决策、科学假设生成和战略预测至关重要,在开发预测型Agent时,这体现为系统能够基于现有数据推断未来趋势或后果。
例如,商业战略Agent应该能够根据市场数据和行业趋势,推断出可能的市场发展方向和竞争格局变化。
SOI提示策略指导AI Agent以系统化的方式分析和解决复杂问题,通过明确的认知操作步骤,提高推理的清晰度、连贯性和适应性。
这种方法将问题解决系统地分解为三个维度:认知操作、信息类型和产品,通过结构化响应,使语言模型能够遵循明确的认知步骤。
下面的提示模板展示了如何指导Agent在SOI框架下进行思考,每个步骤都让Agent从特定的认知操作、信息类型和产品类别中进行选择,从而构建完整的分析框架。
SOI提示模板首先定位Agent为使用Guilford智力结构模型的认知问题解决专家,然后要求其按照三个关键维度构建回应:
认知操作(从识别模式、记忆检索、发散思维、收敛思维和评估中选择)、
信息类型(从图形-视觉、图形-听觉、符号、语义和行为中选择)和产品(从单元、类别、关系、系统、转换和含义中选择)。
这种层次化的提示结构引导AI系统性地选择最适合当前问题的认知策略,
例如,对于一个需要识别模式的问题,Agent可能选择"认知"作为操作,
"语义"作为信息类型,"关系"作为产品,这样的组合能够指导Agent关注语义内容中的因果关系识别。
以全球经济问题为例,SOI分析按照三个明确步骤进行:首先选择"认知"作为认知操作,因为目标是识别技术进步、全球化和经济转变之间的关键模式和关系;
然后选择"语义"作为信息类型,因为问题涉及解释语言和概念含义,需要理解经济和政策相关趋势;
最后选择"关系"作为产品,因为问题需要定义技术变革、市场动态和政策制定挑战之间的因果关系。
通过这种结构化的认知框架,Agent生成的回应不再是简单的文本摘要,
而是深入分析了技术进步、全球化与消费者行为变化如何相互影响,以及政策制定者如何平衡经济增长与可持续发展的挑战。
思维链提示通过将复杂问题分解为显式的、逐步的推理序列,帮助LLM产生更连贯和可解释的输出。
这一方法与SOI模型形成互补,思维链关注的是推理的线性展开过程,而SOI则提供了多维度的认知框架。
当你的Agent需要解决需要多步骤推理的问题时,可以考虑将思维链与SOI结合,
例如,先使用SOI框架确定最适合问题的认知策略,然后通过思维链将这一策略展开为详细的推理步骤。
认知提示围绕明确的认知操作构建提示,从而使模型推理与类人策略保持一致,并增强跨多样化任务的泛化能力。
这一方法可以视为SOI方法的简化版本,专注于操作维度而不是完整的三维框架,当你的Agent面临需要特定认知操作的任务时,可以选择性地应用SOI的操作维度,
例如,对于创意生成任务,可以专注于发散性思维操作,而对于决策任务,则可以强调收敛性思维和评估操作。
ReAct框架进一步整合了推理与实时决策,使得Agent能够随着问题上下文的演变动态适应。
这一框架与SOI模型在动态问题解决方面形成互补,SOI提供了认知策略的选择框架,
而ReAct则关注这些策略的实时应用和调整,在开发需要与环境交互的Agent时,可以考虑将SOI用于初始策略选择,然后通过ReAct框架实现策略的动态调整。
除了结构化提示外,还有一系列优化驱动的提示技术,
例如,Prompt Breeder利用进化算法迭代进化和优化提示公式,而自动提示工程(APE)和OPRO则系统地应用优化算法来微调指令。
这些方法可以用于优化SOI框架下的具体提示实现,
例如,可以使用进化算法优化特定领域内SOI提示的具体表述,或者通过强化学习自动调整不同认知操作的权重。
Guilford的SOI模型为我们提供了一种系统化方法,将人类认知策略融入到AI Agent开发中,使得机器不仅能生成语言,还能进行结构化思考。
这一认知框架的引入标志着AI Agent发展的新阶段,从简单的输入-输出模型向真正的认知系统迈进。
作为Agent产品的开发者,将SOI模型整合到你的提示工程实践中,能够显著提升系统的推理能力、适应性和问题解决效率。
文章来自于微信公众号 “Al修猫Prompt”,作者 :Al修猫Prompt
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0