这是人工智能的寒武纪大爆发,硅基生物的多样性和演化速度,在工业革命以来前所未有。
在大约 5.4 亿年前,海底突然出现了多种生命形式,地球几乎所有现生动物门类在这一时期快速形成。科学家分析寒武纪大爆发的原因,很可能只是海水的氧气水平略微增加到某个阈值以上。
在这场 AI 大爆发前,让阈值带来微妙变化的,不是一年前发布的 ChatGPT ,其实是六年前一篇名为 Attention is All You Need 的论文——Transformer 架构诞生了。
GPT 刷屏了一整年,其中的 T 指的就是 Transformer ,Copilot、 DALL·E 3 、 Midjourney、Runway……这一年不断刷新我们认知的 AI 产品,几乎离不开 Transformer 。
Sam Altman 让 GPT-3.5 提前发布的决定,则提前引发了全球科技公司的大转型和大升级。
资本疯狂涌入,在生成式 AI 上砸了超过 360 亿美元。一群 AI 独角兽一夜长大。国内掀起了“百模大战”,不到一年涌现出 200 多个国产大模型,在 FOMO、复杂情绪中也不乏真正的行业革新者。
兴奋之外,和大模型参数一同呈现指数级别规模增长的,还有普通人在历史转折点中的无措和焦虑。
每次 AI 重磅产品上线,打工人就会被“革命”一次,大量机构乐此不疲计算出你被取代的概率,比起最近热议的 AI 意识觉醒,这样的威胁更加真实。我们似乎正在成为刘宇昆笔下的“奇点遗民”:
我出生于奇点元年,也就是第一个人被上载到机器的那年。教皇声讨这位“数字亚当”,数字精英们却为之欢呼雀跃,而余下的所有人则竭力去理解这个新世界。
AI 正在从看不见摸不着的底层技术,迈向工具性、普适化和工业化的“大应用时代”。
一、AI 寒武纪爆发的催化剂
2023 年之前,AI 在全世界范围引起关注的事件,还是 2016 年 AlphaGo 击败李世石,人们同样震惊于人脑无法匹敌 AI,但和今天的震惊完全不可同日而语。
一个能替普通人做 PPT 写文档做表格的 AI,要比在围棋中击败世界冠军的机器人“可怕”千万倍,因为没有谁可以再把自己当作观众。
这也是2023 年 AIGC 最大的主旋律——从技术原型走向产品化。套用王兴 2018 年饭否上那句经典,“2023 年是过去 10 年里 AI 距离普通人生活最近的 1 年,却是未来 10 年里距离最远的 1 年。”
悄然面世
转折点发生在 2017 年,在 AlphaGo 再次击败柯洁后不到一个月,Transformer 架构悄然面世。Google 最开始只想用 Transformer 来解决机器翻译问题,似乎还没意识到自己发明了什么。
这篇论文在学界和业内几乎没有引起反响,在当年的全球顶级 AI 会议 NeurIPS 上颗粒无收。只有一家刚成立两年,规模只有 50 人的非营利机构将其视为圭臬,马上决定全力投入其中,这家机构叫做 OpenAI。
Transformer带来最大的价值,是改变了机器理解人类自然语言的方式。
超级大拼图
你可以将机器处理自然语言的过程看作拼图,只不过由于人类语言过于复杂多样,这可能是一块超级大的拼图。
过去由 RNN (循环神经网络)来处理,就像一个人拿一盒拼图但不知道它的全貌,只能一个个试错,根据已拼接的部分来决定下一步怎么做。
这大概类似 RNN 逐步处理输入序列,几度依赖于先前的信息来推断下一步的内容,也因此制约了机器学习的速度。
而 Transformer 就相当于提前看到了整幅拼图,不需要按照特定顺序也能很快知道每一块拼图该放在哪。这就是Transformer 的自注意力机制,它可以同时关注输入序列中的所有部分,而不受顺序的束缚。
Transformer 在处理需要全局理解的复杂任务时将高效得多,而且随着大模型处理的数据规模扩大,这个速度将以指数级提升。
大模型得以在预训练中像婴儿一样快速形成对世界的基础认知,理解语言的结构、常见词汇和一般性的上下文关系。之后通过在特定任务上的微调,模型就像是接受专业培训一样,获得不同领域的技能和知识,成为不同行业的专家。
二、AIGC的产品化元年
在 GPT-3.5 发布不到 4 个月,多模态的 GPT-4 横空出世,在多项专业和学术指标下都展现出人类的顶尖水平。
为什么这一年重磅的 AI 产品几乎每个月都在涌现,而且迭代速度极快?Transformer 就是背后的核心驱动力。
初现端倪
当 Word 、 PowerPoint 、Excel ,只需要一句话就完成,AIGC 的“iPhone 时刻”初现端倪。
Midjourney V5不到一个月解决“不会画手”的问题,最近的 V6 再次将每个维度的表现大幅提升。
讨论 AI 生成的图片是否足够逼真的价值越来越小,但我们不得不开始思考,AI 的审美输出是否能被视为摄影美术的艺术。
Runway 的“运动笔刷”简直就是数字时代的神笔马良,斯坦福华人博士 Pika 1.0 ,让 AI 视频开始变得像美图秀秀一样易用。阿里 、Meta、Stability 的 AI 视频产品也悉数亮相,而这些都发生在一个月内。
指日可待
AI 孙燕姿爆红不是偶然,开源的 So-VITS-SVC 在重新定义创作。
“你跟一个每几分钟就推出一张新专辑的人还有什么好争的。”
“人类无法超越它已指日可待。”
孙燕姿面对 AI 孙燕姿的坦然,反而让更多人滋生 AI 焦虑。
基于大模型而生的产品和应用层出不穷, 数据显示过去一年全球最火的 50 个 AI 工具累计访问量达到 240亿,总流量增长了 10.7 倍。
微软 CTO Kevin Scott 提出过一个观点:
让 PC 、互联网、智能手机变得伟大的,并不是那些随平台诞生而存在之物,而是基于这些之上,被人们重新创造出来的新事物。
应用生态
AIGC 被类比成 PC 、互联网、智能手机这样的革命性创新,也将走过这样的轨迹。
OpenAI 的 GPT Store ,在经历“宫斗”风波后也终于上线,目前全网的GPTs 已经超过 300 万个。
方向已经再明确不过:打造 AI 时代的 App Store,帮助更多人(甚至不是开发者)来构建应用生态。
GPTs 让一个不懂代码的人也能构建 AI 应用,未来的应用开发方式或许会完全不同。
一个新的生态正在加速形成。
“iPhone 时刻”和“App Store”是屡屡出现在 OpenAI 上的标签,可从 GPT-3.5 、GPT-4 、ChatGPT App 到 GPT Store,却仅仅用了不到一年。
提到苹果,在乔布斯发布初代 iPhone 的 2007 年,还有一件事对智能手机未来产生的影响,丝毫不亚于 iPhone,那就是 Android 的发布。
历史不会简单重演,但常有相似的韵律。
Meta 发布的开源可免费商用大模型 Llama2,参数最高达 700亿,开始了大模型的另外一条叙事。
开源大模型
虽然 ChatGPT 也开放了 API 接口,但对于很多开发者和企业来说仍有不少限制,针对细分场景微调的需求不能完全满足。
更重要的是,调用 GPT-4 的成本不低,成为 AI 应用一个很大的门槛。这也是为什么不少 AI 初创团队出现“用户越多,亏得越多”的窘境。
开源大模型的出现,可以让 AI 应用的开发周期和成本都大幅降低。 Llama2 -70B 大约比 GPT-4 便宜了 30 倍,这将是大模型商业化落地的加速器。
Llama2 发布两个月后,通过 Hugging Face 的 Llama 模型下载量就超过 3000 万次,国内兴起的 AIGC 浪潮里不少应用基础模型就是 Llama2。
Meta 首席科学家、深度学习三巨头之一 Yann LeCun 认为,开源将改变大语言模型的格局。
“闭源证明了大模型路线的可行性,而开源则通过繁荣的生态,让大模型变得易用、可用。”
大模型产品化
大模型时代的 Android 呼之欲出,可到底是谁还未可知。
在 2023 年最后一个月,阿里云开源的通义千问 Qwen-72B 赶超 Llama2,国产开源大模型终于在全球范围内达到顶尖水平。基于通义千问改造的钉钉,也在最近推出了以自然语言进行交互的 AI 助理,探索AI Agent 的产品化形态,加入到 GPT Store 的竞争行列当中。
最近一家只有22 人的公司 Mistral AI ,也推出了8x7B 开源 MoE 大模型,性能已经接近 GPT-4。
Mistral AI CEO Arthur Mensch 同样表示,如果能通过小模型将 Agents 运行的计算成本降低 100 倍,那么我们就有机会构建很多有意思的应用。
有趣的是,一直以封闭生态著称的苹果,也悄悄发布一款开源多模态 LLM。基于苹果 Ajax 架构开发“Apple GPT”前几个月也被曝光,今年我们或许就能看到 iPhone 上的大模型应用。
2023 为 2024 AI Agent 的爆发埋下伏笔,我们将看到更多满足消费者或商业需求的 AI 原生应用,大模型的产品化再次加速。
而当你习惯了和 ChatGPT 聊天,再切换到智能手机和其他应用,或许会有那么一瞬间这样的感觉:我们和设备交互方式应该改变了。
三、撬动交互革新的杠杆
在 GPT-4 上线几天后,比尔·盖茨发布了一篇博客,称在有生之年见证了两次革命性的 Demo ,第一次是在 1980 年看到了图形用户界面(GUI)——现代操作系统的前身。
至于第二次,则在 GPT-3.5 发布几个月前 ,他看到 OpenAI 团队训练的 AI 能回答没专门训练过的问题。
人和机器的交互方式,往往至少几十年才会发生一次重大变化,但每次更新都会给世界带来根本性的改变。
从命令行界面(CLI)跨入图形用户界面(GUI)后,数字世界的边界快速扩张,电脑、手机、平板、车机……我们与无数黑镜的交互以此为基础。
这些年人们不断尝试寻找下一个 iPhone,试图发掘又一次颠覆生活方式的科技,本质上都在回答一个问题:
下一代革命性的人机交互模式会是什么?
自然用户界面
这个问题或许还没有标准答案,可 ChatGPT 的出现让我们看到更符合直觉的交互——自然语言。相比 GUI 所见即所得的触控、点击,原来我们还能以一种更简单的方式进行交互。
这种交互逻辑可以称之为自然用户界面(Natural user interface, NUI ),这并非一个新概念,早在 2008 年,微软首席 UI 设计总监 August de los Reye 曾公开指出,GUI 未来演进的方向就是 NUI。
人机交互领域的先驱 Bill Buxton 也曾在一篇论文中列举了一些 NUI 应该遵循的原则,其中有一条:
简单性高于一切:复杂性是自然用户界面的敌人。每个交互都应该是不言自明的,不需要说明手册。
基于对话的语音交互并不新鲜,为什么NUI 到今天才成为可能?如果你和 ChatGPT 聊过几次天,大概就能感受到这种变化。
你只需要直接说出你的需求,大模型就能理解并给出成果,而且这个需求可以很复杂,写一篇文章、做个PPT、甚至编程,用户不用熟悉各个功能键也能完成。
计算机对自然语言的理解能力大幅提升,是 NUI 与过去交互逻辑本质上的不同。
《人类简史》作者 尤瓦尔·赫拉利认为,语言是每一种人类文化的操作系统,而以 ChatGPT 为代表的 AI 已经破解了人类文明的“操作系统”。
作为语言重要载体的文本,也自然成为未来人机交互重要的入口。
四、AI 将成为智能手机新的操作系统
“对话”是人类最自然的交互方式,什么硬件形态才更适合承载呢?
这大概就是下一代计算中心的答案。大模型应用方兴未艾,在当下最合适 AI 的载体或许还是智能手机。
未来智能手机的形态可能将被取代,但我们这代人大多会从智能手机上开始感受 AI 带来的交互变革。
智能手机与大模型
在 2023 年的智能手机发布会上,AI 和大模型成为高频词汇,大模型和智能手机的融合在肉眼可见的加深。大多数厂商都是在端侧引入大模型,但思路也有所不同。
端云结合
一类以 OPPO 、vivo 为代表,推出多个参数规模的大模型,通过端侧和云端的配合来处理不同的场景需求。
vivo 的蓝心大模型参数就覆盖了从10 亿 到 1750 亿的 6 个量级,最近发布的两款手机 X100 和 S18 是业内首批百亿大模型在终端调通的手机。
轻量级大模型
另外一类则是包括小米和荣耀在内,主打本地部署的轻量级大模型,通过量化等技术大幅降低模型在手机运行所需的内存。
1 月上市的荣耀 Magic6 系列搭载的就是自研的端侧 7B 大模型,结合 MagicOS 8.0 尝试基于意图识别的交互,也是大模型对人机交互改变最直接的改变。
内存优化
至于苹果,去年秘密研发的 Apple GPT 就曾曝光,今年极有可能也会看到大模型在 iPhone 上的表现。
苹果在最近的一篇论文中,已经展示了一个内存优化的技术方案,可以将大模型部署到手机这样内存受限的设备上。以苹果对隐私安全的重视程度,大概率也会采用本地部署不上云的路线。
手机芯片
随着大模型逐渐成为智能操作系统的核心,衡量手机芯片性能的维度不再只是频率和核心,还有对大模型运行的支持能力。
高通的骁龙 8 Gen 3 就是首个专门为生成式 AI 打造的移动平台,能在端侧运行 100 亿参数大模型。
联发科最新一代的旗舰芯片天玑9300,也内置了生成式AI 引擎 APU970,能够运行超过 330 亿参数的端侧大模型。
除了硬件厂商,OpenAI、微软、Google 等科技公司都在探索 AI 硬件的形态。
无论是去年出现的 AI Pin、内置 Meta AI 的雷朋眼镜,还是一众大模型+手机,都未必是 AI 硬件最理想的形态,但让大模型在移动设备高效流畅运行是一个重要的基础。
基于自然语言的交互到来,影响的不只是我们的随身设备,应用的形态也将完全改变,甚至 app 都将不存在了。
当 AI 可以理解用户的自然语言,基于本地的数据训练逐渐理解用户的意图,过去应用提供的服务和功能都无缝整合到系统中调用,出穿住行娱乐所有场景,用户只要说出需求即可。
整个交互界面本身就是一个超级 app,显然就不需要这么多应用了,大模型与智能手机系统的结合就是迈向这个未来的过渡。
至于各家互联网公司提供的服务能否打通,可能是未来实现这种交互最大的障碍。但无论是智能手机还是应用,都终将是人类发展史上一个阶段性产物。
新石器时代
AIGC 被很多人认为是第四次工业革命,每一次工业革命,背后都是不只是单纯的技术问题。
人类从两千年前至今,一直在探索对智能的认知,在计算机技术还未萌芽时,哲学、文学等看似和科学没有关系的学科就开始推动智能认知的迭代。
机械运动
16 世纪,笛卡尔从弹簧和齿轮驱动的自动操作装置得到启发,认为人类就是一台复杂的机器。
100年后,英国哲学家托马斯•霍布斯提出新的观点:思维产生于大脑中微小的机械运动。
认知科学
被认为开启“认知科学”里程碑的《语言与沟通》在 1951 年出版,作者是心理学家乔治•米勒。米勒认为使用信息理论、计算和语言学的理念,我们能严格地研究精神世界。
这一理念启发数学家约翰•冯•诺依曼,提出“人类神经系统的功能在表面上是数字化的。”人类开始将计算机和大脑的运行对比。
超级对齐
今天深度学习已经让机器认知越来越靠近人类认知, 前 OpenAI 首席科学家 Ilya Sutskever 认为,“AI 只要能够非常好地预测下一个token,就能帮助人类达到 AGI。”
有趣的是,当我们担忧 AI 发展速度太快时,提出的解决办法看起来也不那么“科学”。
Ilya 一直强调的“超级对齐”(Superalignment),就是要给 AI 盖上无条件爱人类的思想钢印 。用陶芳波博士的话说,这是一种就像 孔子、耶稣、释迦摩尼这些给文明带来深远影响的无条件的爱。
这一年,我们有了处于时代转折点更强烈的体感,我们和世界的互动方式被改变,似乎在等待一个系统的大版本更新。
就像多年的原始人,看着手中的石头,兴奋、茫然、恐惧……
人类文明第三个千年的起点 ,一个新石器时代正在开启 。
本文来自微信公众号:爱范儿 (ID:ifanr),作者:李超凡
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner