第二幕将催生一种全新的专业:认知工程师 (Cognitive Engineers)— 专注于将人类或 AI 在各领域的深度认知提炼、结构化并转化为 AI 可学习的形式。
无论你是技术创造者还是使用者,理解这场认知革命都至关重要。我们正在从「AI as tools」向「AI as thinking partners」转变,这不仅改变了技术的能力边界,也改变了我们与技术协作的方式。
一、生成式 AI 的第一幕:辉煌与局限
第一幕取得的辉煌成就
2022 年末,ChatGPT 横空出世,引发了一场席卷全球的 AI 革命。这场革命之所以深刻,正如比尔・盖茨所言:「人生中让我印象深刻的两次技术革命演示,一次是现在操作系统的先驱『图形用户界面』,另一个就是以 ChatGPT 为代表的生成式人工智能技术。」生成式 AI 的出现不仅改变了我们与计算机交互的方式,更重塑了我们对人工智能能力边界的认知。
从文本到代码,从图像到视频,生成式 AI 展现了令人惊叹的创造力。如今,你只需输入一句简单的指令,就能让 AI 生成「两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频」;你可以向它提出复杂的编程需求,它会为你编写完整的代码;你甚至可以请它以莎士比亚的风格撰写一篇关于量子物理学的论文。这些曾经只存在于科幻小说中的场景,如今已成为我们日常生活的一部分。生成式 AI 正在实现一种前所未有的民主化,让高级智能服务不再局限于技术精英,而是向每个人敞开大门。
在过去的两年里,我们经历了生成式 AI 的第一幕(2024 年 9 月前):以大规模预训练和提示工程为基础,实现了知识的高效存储和检索。这一阶段的技术基础建立在两大核心支柱上:生成式预训练(Generative Pretraining)作为数据存储机制,将世界知识压缩到神经网络参数中;以及提示工程(Prompting Engineering)作为知识读取方式,而且是通过人类最擅长的自然语言交互提取这些知识。
在标准基准测试上,第一幕 AI 取得了显著进步。以 MMLU(大规模多任务理解测试)为例,从 2019 年到 2024 年,顶尖模型的性能从人类水平以下迅速攀升至超过 90% 的准确率,超越了人类表现。这些基准测试涵盖各种知识领域和任务类型,从常识推理到专业知识,从语言理解到问题解决,AI 模型在几乎所有领域都展现出了惊人的进步。
第一幕的根本局限
然而,随着我们对生成式 AI 的深入应用,第一幕的根本局限也日益凸显,尤其在复杂推理能力方面的不足。
推理能力的短板最为突出。以 AIME(美国高中数学竞赛)为例,即使是最先进的模型如 Qwen-2.5-Math,在面对 2024 年 AIME 的 30 道题目时,也只能正确回答 9-13 道。这表明,在需要深度数学推理的任务上,第一幕 AI 仍然与人类专家有明显差距。
同样,在 OS World Benchmark (评估 AI 操作电脑完成任务的能力) 等测试中,这些模型在使用计算机完成复杂任务时表现不佳。此类任务需要长链规划、工具使用和环境交互,而现有模型往往难以维持连贯的长期计划和适应动态环境变化。
第一幕 AI 模型在这些复杂推理任务上的表现远远落后于其在文本理解等方面的成就。即使是 GPT-4o 这样的顶尖模型,在需要深度思考的场景中仍然困难重重。
除了推理能力的短板外,第一幕 AI 还存在知识更新滞后的问题。模型的知识截止于其训练数据的时间点,无法自动获取最新信息。这导致在快速变化的领域中,模型提供的信息可能已经过时或不准确。
最根本的局限是深度思考能力的缺失。第一幕的模型更像是一个知识管理工具,善于检索和整合已有信息,但难以进行真正的创造性思考或处理前所未见的复杂问题。它们无法像人类那样进行长时间的深度思考,无法在思考过程中识别错误并调整方向,也无法连接远距离的知识点形成新的见解。我们需要一个会深度思考的模型!
为什么(思考)推理能力如此重要?正如某位 OpenAI 科学家:「任何要完成的工作都会遇到障碍,而让你绕过这些障碍的是你的推理能力。」 在实际应用场景中,推理能力的重要性表现在多个方面:
第一幕技术的总结
第一幕 AI 的推理局限引发了一个关键问题:仅通过预训练扩展能否实现复杂推理?行业内已形成共识认为「预训练将要结束」,「仅通过预训练无法实现 AGI」。通用 LLM 已在普通用户需求领域趋于饱和,而前沿创新领域仍存在巨大的提升空间。
这种现象表明,我们遇到了预训练扩展的瓶颈。尽管投入更多数据和计算资源,模型在推理能力上的提升却日渐减缓。我们需要一种根本性的范式转变,而不仅仅是对现有方法的量化扩展。
总结第一幕的生成式 AI,我们可以看到其技术基础是预训练和微调的结合。这一阶段的 AI 模型:
正是这些局限促使我们转向生成式 AI 的第二幕 —— 认知工程。我们需要一个真正会深度思考的模型,而不仅仅是一个高效的知识检索工具。第二幕的到来,标志着 AI 从知识管理向认知管理的跨越,从信息处理向思维模拟的进化。这一转变将如何实现?它又将带来怎样的革命性变化?这正是我们接下来要探讨的内容。
二、生成式 AI 的第二幕
在生成式 AI 的发展历程中,我们正跨入一个激动人心的新阶段 —— 第二幕:认知工程。这一转变不仅仅是技术的迭代,更是 AI 能力本质的重新定义。那么,什么是认知工程?它与第一幕的知识工程有何本质区别?为什么它会在此时出现?这些问题将成为我们理解 AI 未来发展的关键。
最近,上海交通大学联合创智学院,耗时超过半年,创建了教科书级别的长达 76 的文章(并提供了双语版本),首次提出:「认知工程」的概念:认为生成式 AI 发展已进入第二幕,从原来的以预训练技术为核心的提示词工程 (Prompt engineering) 转变为以 Test-Time scaling 为核心的认知工程 (Cognition Engineering),结合 400 多篇论文和最新的研究工作全景式介绍了 Test-time scaling 技术驱动下的范式变革。
图:提示工程使人类首次通过自然语言与 AI 实现对话级交流;如今,认知工程则通过基于语言的思想,建立起我们与 AI 之间首次思维层面的连接 —— 宛如意识之间的直接对接。
这篇工作提供了什么?
该文章全面介绍了生成式 AI 发展第二幕的特点、技术手段、应用前景、未来方向,并努力让不同的人群都有所收获,包括但不限于:
特别的,该文章提供了如下的系统化资源:
三、深度解读三大扩展定律(Scaling Laws)
预训练阶段(蓝色区域):图中的蓝色知识节点之间存在天然连接(Innate Connection),这些连接是模型通过大规模预训练自然形成的。例如,「Earth」(地球)、「Gravity」(重力)和「Falling Objects」(落体)之间存在直接的天然关联,模型可以轻松理解「苹果为什么会落下」这类问题。但注意「Kepler's Laws」(开普勒定律)和「Universal Gravitation」(万有引力)这类更深层次的知识点与日常现象之间并没有直接连接。
后训练阶段(绿色区域):通过额外的监督学习和对齐训练,模型形成了更多学习得到的连接(Learned Connection)。图中的绿色曲线显示,这一阶段的智能增长速度比预训练阶段更快,但仍然有其极限。
测试时阶段(红色区域):这是认知工程的核心部分。在这一阶段,模型能够在推理过程中动态建立「推理连接」(Reasoned Connection),将远距离的知识节点连接起来。图中显示,当面对一个问题(Query Start Node,Qs)时,模型不仅利用已有连接,还能通过推理建立新的连接路径,最终到达目标节点(Query End Node,Qe)。
生成式 AI 的发展可以通过 Computation Scaling 模型来理解。
我们可以清晰地看到这一转变的视觉化表达。图表将 AI 的发展划分为三个阶段:Pre-training(预训练)、Post-training(后训练)和 Test-time(测试时),横轴代表 Computation Scaling(计算扩展),纵轴代表 Intelligence(智能水平)。
阶段一:预训练扩展
通过增加训练数据和模型参数来提升性能,但逐渐遇到天花板。
阶段二:后训练扩展
通过精细调整、对齐和指令遵循进一步提升模型能力,但增长同样趋于平缓。
阶段三:测试时扩展
通过改变推理过程本身,打开了一个全新的扩展维度,性能曲线再次陡峭上升。
这种演进模式告诉我们一个重要事实:当一种扩展方式达到极限时,我们需要寻找新的扩展维度。测试时扩展正是这样一种新维度,它不再仅仅关注「模型知道什么」,而是关注「模型如何思考」。
这种能力的本质是:模型可以在推理过程中进行深度思考,动态构建认知路径,而不仅仅是检索静态知识。测试时阶段的红色曲线陡峭上升,表明这种方法带来了智能水平的显著提升。
四、认知工程
什么是认知工程?「认知工程是通过超越传统预训练方法的 Test Time Scaling (测试时扩展) 范式,系统性构建人工智能思维能力的方法论。它融合人类认知模式提炼和 AI 自主发现(如强化学习),有意识地培育人工系统的深度认知能力。」
DIKW 金字塔及其与认知工程范式的关系
认知工程代表了人工智能发展范式的根本转变,其核心在于系统化地构建 AI 系统的深度认知能力。基于 DIKW(数据 - 信息 - 知识 - 智慧)理论框架,这一新兴领域致力于实现从知识层面向智慧层面的质变突破。
在认知维度上,传统 AI 系统主要停留在数据和信息处理层面,大语言模型虽然实现了知识层面的突破,但认知工程更进一步,聚焦于智慧层面的核心特征:包括通过多层级复杂推理与元认知能力实现的深度思考;通过跨领域知识整合与新见解生成的创造性连接,以及根据问题复杂度自主调整思维过程的动态适应能力。
与传统 AI 范式相比,认知工程展现出根本性差异:
认知工程可以定义为:通过延长推理时间和学习人类认知过程,使大模型由第一幕的知识管理工具进化成具备深度思考能力的认知管理工具。这是一个从「知道什么」到「如何思考」的根本转变。
我们可以通过知识图谱的类比来直观理解这一转变。在第一幕中,大模型通过预训练获取了大量的知识点(节点)和它们之间的常见关联(边),形成了一个庞大但相对静态的知识网络。当用户提问时,模型主要在这个预先构建的网络中检索和组合已有信息。这就像是在一个已经铺好的公路网上行驶,只能到达那些有道路相连的地方。
而在第二幕的认知工程中,模型获得了一种新能力:它可以在推理过程中「修建新路」—— 也就是通过深度思考建立远距离知识点之间的新连接。面对一个复杂问题,比如「量子力学与心理学有何关联?」,第二幕的模型不再仅仅检索已知的直接联系(如果有的话),而是能够通过多步推理,探索这两个领域之间可能存在的联系路径,甚至发现前人未曾注意到的隐含关系。
这种能力的核心在于:模型可以在推理过程中动态构建认知路径,而不仅仅是检索静态知识。这正是人类深度思考的本质特征之一。
五、为什么现在发展认知工程?
认知工程的兴起并非偶然,而是对 AI 发展在 DIKW 金字塔中遭遇「智慧鸿沟」的直接回应。尽管在知识检索、内容生成和基础推理方面取得显著进展,大语言模型在智慧层面仍存在明显缺陷:
认知工程在此特定时刻兴起,得益于多项技术突破的同步成熟。这些突破共同创造了必要条件,使 AI 得以从知识管理迈向深度认知能力。认知工程的崛起建立在三大关键技术支柱之上:
六、如何使用 Test-Time Scaling 技术推动认知工程?
全文从两个角度介绍了如何使用 Test-Time scaling 技术推动认知工程。
(1)Test-time scaling 方法
全文主要介绍了四种 Test-time scaling 方法:并行采样、树搜索、多轮修正和长思维链推理。对于每种 Test-time scaling 方法,涵盖构建方法、扩展规律以及如何从单个方法优化角度提高扩展效率。此外,文章还在多个维度上比较了这些方法的优劣势,并讨论如何有效地结合它们以提升性能。
提高 Test-time scaling 扩展效率的方法总结
不同 Test-time scaling 方法的比较
不同 Test-time scaling 方法的集成
(2)Test-time scaling 背后的训练策略
对于长思维链的 Test-time scaling 技术,对于传统的大语言模型,需要强化学习或者监督微调技术解锁其长思维链能力,该文章结合最新的工作,对于强化学习技术,从训练算法、奖励函数、策略模型、训练数据、多阶段训练五个角度全面介绍其设计准则,此外论文还提供了配套的代码教程。
应用强化学习技术解锁长思维链能力工作总结
解决强化学习训练常见问题的方法汇总
不同强化学习算法比较
不同奖励类型的比较
对于使用监督微调技术解锁长思维链能力,该文章从训练数据来源、训练数据质量、训练数据量、训练方法 、基模型五个角度全面介绍其设计准则,并汇总了常见的针对不同场景的长思维链资源。
七、数据工程 2.0: 认知数据工程
传统人工智能主要关注知识获取 —— 训练系统学习人类思维的成果。然而,认知工程要求一种根本性的不同:从思维成果转向思维过程本身。这一转变催生了一门新学科 —— 认知数据工程,它彻底改变了我们对有价值训练数据的理解。
认知数据来源于三个不同但互补的来源,每个来源都为开发过程带来了独特的优势和挑战:
来源 1:人类认知投射
尽管目前缺乏直接捕捉人类思维过程的脑机接口,我们仍可以通过物理世界中的投射来获取人类认知:
来源 2:AI 生成的认知
通过适当的奖励机制和复杂的强化学习方法,AI 系统现在可以在环境中独立生成有价值的认知数据或轨迹:
来源 3:人机协作生成
最有前景的或许是通过人机伙伴关系共同创造认知数据:
这种认知数据建立了一类全新的数字资源,有可能推动 AI 能力超越仅靠自然数据收集或合成生成所能达到的水平。由此产生的认知数据存储库很可能变得与大规模计算资源一样具有战略价值,成为决定 AI 进步领导地位的关键因素。
预训练阶段数据工程演变趋势(左)与后训练阶段数据工程演变趋势(右)
该文章还从数学、代码、多模态、智能体、具身智能、安全对齐、检索增强生成、评估等多个角度介绍了 Test-time scaling 驱动下的认知工程的应用实例以及未来发展方向:
Test-time scaling 技术在不同领域的应用
Test-time scaling 技术在数学领域工作的时间线总结
论文还提供了手把手写 RL Scaling 的代码和对应使用的数据集,让每个感兴趣的人都可以掌握这门技术:
八、结语
站在 2025 年的视角回望生成式 AI 的发展历程,我们见证了一场前所未有的认知革命。从第一幕的知识管理工具,到第二幕的认知工程,AI 正在经历一场本质的蜕变。
第一幕以大规模预训练和提示工程为基础,创造了能够理解和生成人类语言的强大模型。这些模型擅长知识检索和简单推理,为人类提供了前所未有的信息处理工具。然而,它们在深度思考、复杂推理和创新性任务上的局限也日益明显。
第二幕的认知工程带来了根本性的突破。通过测试时扩展技术,AI 首次获得了真正的深度思考能力;这场认知革命的影响深远。在短期内,它将改变软件开发、内容创作和信息分析等领域的工作方式;在中期,它将重塑教育体系、科学研究和商业创新的流程;在长期,它可能会改变人类与技术的关系本质,创造一种人机共生的新智能形态。
对于开发者,建议是:不要仅停留在 API 调用层面,深入了解认知工程的原理,学会设计能够激发 AI 深度思考的交互;对于研究者,寻找测试时扩展与新型架构结合的创新点,探索认知与记忆的协同优化;对于产业界,投资认知数据的收集与生成,打造满足行业特定需求的认知模型。
无论你是技术创造者还是使用者,理解这场认知革命都至关重要。我们正在从「AI as tools」向「AI as thinking partners」转变,这不仅改变了技术的能力边界,也改变了我们与技术协作的方式。
文章来自微信公众号 “ 机器之心 ”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0