大模型元年，人类文明的操作系统正在大更新

1508点击 2024-02-01 22:53

这是人工智能的寒武纪大爆发，硅基生物的多样性和演化速度，在工业革命以来前所未有。

在大约 5.4 亿年前，海底突然出现了多种生命形式，地球几乎所有现生动物门类在这一时期快速形成。科学家分析寒武纪大爆发的原因，很可能只是海水的氧气水平略微增加到某个阈值以上。

在这场 AI 大爆发前，让阈值带来微妙变化的，不是一年前发布的 ChatGPT ，其实是六年前一篇名为 Attention is All You Need 的论文——Transformer 架构诞生了。

GPT 刷屏了一整年，其中的 T 指的就是 Transformer ，Copilot、 DALL·E 3 、 Midjourney、Runway……这一年不断刷新我们认知的 AI 产品，几乎离不开 Transformer 。

Sam Altman 让 GPT-3.5 提前发布的决定，则提前引发了全球科技公司的大转型和大升级。

资本疯狂涌入，在生成式 AI 上砸了超过 360 亿美元。一群 AI 独角兽一夜长大。国内掀起了“百模大战”，不到一年涌现出 200 多个国产大模型，在 FOMO、复杂情绪中也不乏真正的行业革新者。

兴奋之外，和大模型参数一同呈现指数级别规模增长的，还有普通人在历史转折点中的无措和焦虑。

每次 AI 重磅产品上线，打工人就会被“革命”一次，大量机构乐此不疲计算出你被取代的概率，比起最近热议的 AI 意识觉醒，这样的威胁更加真实。我们似乎正在成为刘宇昆笔下的“奇点遗民”：

我出生于奇点元年，也就是第一个人被上载到机器的那年。教皇声讨这位“数字亚当”，数字精英们却为之欢呼雀跃，而余下的所有人则竭力去理解这个新世界。

AI 正在从看不见摸不着的底层技术，迈向工具性、普适化和工业化的“大应用时代”。

一、AI 寒武纪爆发的催化剂

2023 年之前，AI 在全世界范围引起关注的事件，还是 2016 年 AlphaGo 击败李世石，人们同样震惊于人脑无法匹敌 AI，但和今天的震惊完全不可同日而语。

一个能替普通人做 PPT 写文档做表格的 AI，要比在围棋中击败世界冠军的机器人“可怕”千万倍，因为没有谁可以再把自己当作观众。

这也是2023 年 AIGC 最大的主旋律——从技术原型走向产品化。套用王兴 2018 年饭否上那句经典，“2023 年是过去 10 年里 AI 距离普通人生活最近的 1 年，却是未来 10 年里距离最远的 1 年。”

悄然面世

转折点发生在 2017 年，在 AlphaGo 再次击败柯洁后不到一个月，Transformer 架构悄然面世。Google 最开始只想用 Transformer 来解决机器翻译问题，似乎还没意识到自己发明了什么。

这篇论文在学界和业内几乎没有引起反响，在当年的全球顶级 AI 会议 NeurIPS 上颗粒无收。只有一家刚成立两年，规模只有 50 人的非营利机构将其视为圭臬，马上决定全力投入其中，这家机构叫做 OpenAI。

Transformer带来最大的价值，是改变了机器理解人类自然语言的方式。

超级大拼图

你可以将机器处理自然语言的过程看作拼图，只不过由于人类语言过于复杂多样，这可能是一块超级大的拼图。

过去由 RNN （循环神经网络）来处理，就像一个人拿一盒拼图但不知道它的全貌，只能一个个试错，根据已拼接的部分来决定下一步怎么做。

这大概类似 RNN 逐步处理输入序列，几度依赖于先前的信息来推断下一步的内容，也因此制约了机器学习的速度。

而 Transformer 就相当于提前看到了整幅拼图，不需要按照特定顺序也能很快知道每一块拼图该放在哪。这就是Transformer 的自注意力机制，它可以同时关注输入序列中的所有部分，而不受顺序的束缚。

Transformer 在处理需要全局理解的复杂任务时将高效得多，而且随着大模型处理的数据规模扩大，这个速度将以指数级提升。

大模型得以在预训练中像婴儿一样快速形成对世界的基础认知，理解语言的结构、常见词汇和一般性的上下文关系。之后通过在特定任务上的微调，模型就像是接受专业培训一样，获得不同领域的技能和知识，成为不同行业的专家。

二、AIGC的产品化元年

在 GPT-3.5 发布不到 4 个月，多模态的 GPT-4 横空出世，在多项专业和学术指标下都展现出人类的顶尖水平。

为什么这一年重磅的 AI 产品几乎每个月都在涌现，而且迭代速度极快？Transformer 就是背后的核心驱动力。

初现端倪

当 Word 、 PowerPoint 、Excel ，只需要一句话就完成，AIGC 的“iPhone 时刻”初现端倪。

Midjourney V5不到一个月解决“不会画手”的问题，最近的 V6 再次将每个维度的表现大幅提升。

讨论 AI 生成的图片是否足够逼真的价值越来越小，但我们不得不开始思考，AI 的审美输出是否能被视为摄影美术的艺术。

Runway 的“运动笔刷”简直就是数字时代的神笔马良，斯坦福华人博士 Pika 1.0 ，让 AI 视频开始变得像美图秀秀一样易用。阿里、Meta、Stability 的 AI 视频产品也悉数亮相，而这些都发生在一个月内。

指日可待

AI 孙燕姿爆红不是偶然，开源的 So-VITS-SVC 在重新定义创作。

“你跟一个每几分钟就推出一张新专辑的人还有什么好争的。”

“人类无法超越它已指日可待。”

孙燕姿面对 AI 孙燕姿的坦然，反而让更多人滋生 AI 焦虑。

基于大模型而生的产品和应用层出不穷，数据显示过去一年全球最火的 50 个 AI 工具累计访问量达到 240亿，总流量增长了 10.7 倍。

微软 CTO Kevin Scott 提出过一个观点：

让 PC 、互联网、智能手机变得伟大的，并不是那些随平台诞生而存在之物，而是基于这些之上，被人们重新创造出来的新事物。

应用生态

AIGC 被类比成 PC 、互联网、智能手机这样的革命性创新，也将走过这样的轨迹。

OpenAI 的 GPT Store ，在经历“宫斗”风波后也终于上线，目前全网的GPTs 已经超过 300 万个。

方向已经再明确不过：打造 AI 时代的 App Store，帮助更多人（甚至不是开发者）来构建应用生态。

GPTs 让一个不懂代码的人也能构建 AI 应用，未来的应用开发方式或许会完全不同。

一个新的生态正在加速形成。

“iPhone 时刻”和“App Store”是屡屡出现在 OpenAI 上的标签，可从 GPT-3.5 、GPT-4 、ChatGPT App 到 GPT Store，却仅仅用了不到一年。

提到苹果，在乔布斯发布初代 iPhone 的 2007 年，还有一件事对智能手机未来产生的影响，丝毫不亚于 iPhone，那就是 Android 的发布。

历史不会简单重演，但常有相似的韵律。

Meta 发布的开源可免费商用大模型 Llama2，参数最高达 700亿，开始了大模型的另外一条叙事。

开源大模型

虽然 ChatGPT 也开放了 API 接口，但对于很多开发者和企业来说仍有不少限制，针对细分场景微调的需求不能完全满足。

更重要的是，调用 GPT-4 的成本不低，成为 AI 应用一个很大的门槛。这也是为什么不少 AI 初创团队出现“用户越多，亏得越多”的窘境。

开源大模型的出现，可以让 AI 应用的开发周期和成本都大幅降低。 Llama2 -70B 大约比 GPT-4 便宜了 30 倍，这将是大模型商业化落地的加速器。

Llama2 发布两个月后，通过 Hugging Face 的 Llama 模型下载量就超过 3000 万次，国内兴起的 AIGC 浪潮里不少应用基础模型就是 Llama2。

Meta 首席科学家、深度学习三巨头之一 Yann LeCun 认为，开源将改变大语言模型的格局。

“闭源证明了大模型路线的可行性，而开源则通过繁荣的生态，让大模型变得易用、可用。”

大模型产品化

大模型时代的 Android 呼之欲出，可到底是谁还未可知。

在 2023 年最后一个月，阿里云开源的通义千问 Qwen-72B 赶超 Llama2，国产开源大模型终于在全球范围内达到顶尖水平。基于通义千问改造的钉钉，也在最近推出了以自然语言进行交互的 AI 助理，探索AI Agent 的产品化形态，加入到 GPT Store 的竞争行列当中。

最近一家只有22 人的公司 Mistral AI ，也推出了8x7B 开源 MoE 大模型，性能已经接近 GPT-4。

Mistral AI CEO Arthur Mensch 同样表示，如果能通过小模型将 Agents 运行的计算成本降低 100 倍，那么我们就有机会构建很多有意思的应用。

有趣的是，一直以封闭生态著称的苹果，也悄悄发布一款开源多模态 LLM。基于苹果 Ajax 架构开发“Apple GPT”前几个月也被曝光，今年我们或许就能看到 iPhone 上的大模型应用。

2023 为 2024 AI Agent 的爆发埋下伏笔，我们将看到更多满足消费者或商业需求的 AI 原生应用，大模型的产品化再次加速。

而当你习惯了和 ChatGPT 聊天，再切换到智能手机和其他应用，或许会有那么一瞬间这样的感觉：我们和设备交互方式应该改变了。

三、撬动交互革新的杠杆

在 GPT-4 上线几天后，比尔·盖茨发布了一篇博客，称在有生之年见证了两次革命性的 Demo ，第一次是在 1980 年看到了图形用户界面（GUI）——现代操作系统的前身。

至于第二次，则在 GPT-3.5 发布几个月前，他看到 OpenAI 团队训练的 AI 能回答没专门训练过的问题。

人和机器的交互方式，往往至少几十年才会发生一次重大变化，但每次更新都会给世界带来根本性的改变。

从命令行界面（CLI）跨入图形用户界面（GUI）后，数字世界的边界快速扩张，电脑、手机、平板、车机……我们与无数黑镜的交互以此为基础。

这些年人们不断尝试寻找下一个 iPhone，试图发掘又一次颠覆生活方式的科技，本质上都在回答一个问题：

下一代革命性的人机交互模式会是什么？

自然用户界面

这个问题或许还没有标准答案，可 ChatGPT 的出现让我们看到更符合直觉的交互——自然语言。相比 GUI 所见即所得的触控、点击，原来我们还能以一种更简单的方式进行交互。

这种交互逻辑可以称之为自然用户界面（Natural user interface， NUI ），这并非一个新概念，早在 2008 年，微软首席 UI 设计总监 August de los Reye 曾公开指出，GUI 未来演进的方向就是 NUI。

人机交互领域的先驱 Bill Buxton 也曾在一篇论文中列举了一些 NUI 应该遵循的原则，其中有一条：

简单性高于一切：复杂性是自然用户界面的敌人。每个交互都应该是不言自明的，不需要说明手册。

基于对话的语音交互并不新鲜，为什么NUI 到今天才成为可能？如果你和 ChatGPT 聊过几次天，大概就能感受到这种变化。

你只需要直接说出你的需求，大模型就能理解并给出成果，而且这个需求可以很复杂，写一篇文章、做个PPT、甚至编程，用户不用熟悉各个功能键也能完成。

计算机对自然语言的理解能力大幅提升，是 NUI 与过去交互逻辑本质上的不同。

《人类简史》作者尤瓦尔·赫拉利认为，语言是每一种人类文化的操作系统，而以 ChatGPT 为代表的 AI 已经破解了人类文明的“操作系统”。

作为语言重要载体的文本，也自然成为未来人机交互重要的入口。

四、AI 将成为智能手机新的操作系统

“对话”是人类最自然的交互方式，什么硬件形态才更适合承载呢？

这大概就是下一代计算中心的答案。大模型应用方兴未艾，在当下最合适 AI 的载体或许还是智能手机。

未来智能手机的形态可能将被取代，但我们这代人大多会从智能手机上开始感受 AI 带来的交互变革。

智能手机与大模型

在 2023 年的智能手机发布会上，AI 和大模型成为高频词汇，大模型和智能手机的融合在肉眼可见的加深。大多数厂商都是在端侧引入大模型，但思路也有所不同。

端云结合

一类以 OPPO 、vivo 为代表，推出多个参数规模的大模型，通过端侧和云端的配合来处理不同的场景需求。

vivo 的蓝心大模型参数就覆盖了从10 亿到 1750 亿的 6 个量级，最近发布的两款手机 X100 和 S18 是业内首批百亿大模型在终端调通的手机。

轻量级大模型

另外一类则是包括小米和荣耀在内，主打本地部署的轻量级大模型，通过量化等技术大幅降低模型在手机运行所需的内存。

1 月上市的荣耀 Magic6 系列搭载的就是自研的端侧 7B 大模型，结合 MagicOS 8.0 尝试基于意图识别的交互，也是大模型对人机交互改变最直接的改变。

内存优化

至于苹果，去年秘密研发的 Apple GPT 就曾曝光，今年极有可能也会看到大模型在 iPhone 上的表现。

苹果在最近的一篇论文中，已经展示了一个内存优化的技术方案，可以将大模型部署到手机这样内存受限的设备上。以苹果对隐私安全的重视程度，大概率也会采用本地部署不上云的路线。

手机芯片

随着大模型逐渐成为智能操作系统的核心，衡量手机芯片性能的维度不再只是频率和核心，还有对大模型运行的支持能力。

高通的骁龙 8 Gen 3 就是首个专门为生成式 AI 打造的移动平台，能在端侧运行 100 亿参数大模型。

联发科最新一代的旗舰芯片天玑9300，也内置了生成式AI 引擎 APU970，能够运行超过 330 亿参数的端侧大模型。

除了硬件厂商，OpenAI、微软、Google 等科技公司都在探索 AI 硬件的形态。

无论是去年出现的 AI Pin、内置 Meta AI 的雷朋眼镜，还是一众大模型+手机，都未必是 AI 硬件最理想的形态，但让大模型在移动设备高效流畅运行是一个重要的基础。

基于自然语言的交互到来，影响的不只是我们的随身设备，应用的形态也将完全改变，甚至 app 都将不存在了。

当 AI 可以理解用户的自然语言，基于本地的数据训练逐渐理解用户的意图，过去应用提供的服务和功能都无缝整合到系统中调用，出穿住行娱乐所有场景，用户只要说出需求即可。

整个交互界面本身就是一个超级 app，显然就不需要这么多应用了，大模型与智能手机系统的结合就是迈向这个未来的过渡。

至于各家互联网公司提供的服务能否打通，可能是未来实现这种交互最大的障碍。但无论是智能手机还是应用，都终将是人类发展史上一个阶段性产物。

新石器时代

AIGC 被很多人认为是第四次工业革命，每一次工业革命，背后都是不只是单纯的技术问题。

人类从两千年前至今，一直在探索对智能的认知，在计算机技术还未萌芽时，哲学、文学等看似和科学没有关系的学科就开始推动智能认知的迭代。

机械运动

16 世纪，笛卡尔从弹簧和齿轮驱动的自动操作装置得到启发，认为人类就是一台复杂的机器。

100年后，英国哲学家托马斯•霍布斯提出新的观点：思维产生于大脑中微小的机械运动。

认知科学

被认为开启“认知科学”里程碑的《语言与沟通》在 1951 年出版，作者是心理学家乔治•米勒。米勒认为使用信息理论、计算和语言学的理念，我们能严格地研究精神世界。

这一理念启发数学家约翰•冯•诺依曼，提出“人类神经系统的功能在表面上是数字化的。”人类开始将计算机和大脑的运行对比。

超级对齐

今天深度学习已经让机器认知越来越靠近人类认知，前 OpenAI 首席科学家 Ilya Sutskever 认为，“AI 只要能够非常好地预测下一个token，就能帮助人类达到 AGI。”

有趣的是，当我们担忧 AI 发展速度太快时，提出的解决办法看起来也不那么“科学”。

Ilya 一直强调的“超级对齐”（Superalignment），就是要给 AI 盖上无条件爱人类的思想钢印。用陶芳波博士的话说，这是一种就像孔子、耶稣、释迦摩尼这些给文明带来深远影响的无条件的爱。

这一年，我们有了处于时代转折点更强烈的体感，我们和世界的互动方式被改变，似乎在等待一个系统的大版本更新。

就像多年的原始人，看着手中的石头，兴奋、茫然、恐惧……

人类文明第三个千年的起点，一个新石器时代正在开启。

本文来自微信公众号：爱范儿（ID：ifanr），作者：李超凡

关键词: 大模型 , Transformer , AI操作系统

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner