有大视角,才不会被细节迷惑。
一位朋友去B2B公司面试产品销售,回来后有点迷茫。
他说:
HR聊到前几段履历情况,以及所做出的成果和离职原因后,就没没说其他的;但业务负责人面试完,我自信的状态突然没有了。
因为在双方交流过程中发现,他用到很多英文、专业术语,这些我都似懂非懂,尽管对方没有具体做到问我某些什么意思,可我总认为,自己在该方面还有很多课要补。
是的,新技术发展,必然会有大量术语、概念产生。
这些术语好处是,能将复杂、冗余的表述简化为几个词,从而极高交流效率;然而,劣势也同样明显,你对术语不熟,就没办法跟客户把产品讲明白,甚至导致沟通失效。
那么,面对此类情况,该怎么办呢?有两个方法,一,日常在工作中多积累;二,集中系统性学习。
第二种很难,毕竟人工智能广泛还复杂,涵盖细分场景也比较多;因此,我特意选取了一些容易混淆,提及比较多的通用词汇。
第一个关于AI。你怎么一句话给人解释它?
我会这么说:
AI,是人工+智能。一种让机器能像人一样思考、解决问题的技术,它能用在多个领域和场景中,想象一下,智能手机,智能家居设备,这些都是AI技术的应用。
这很简单吧。
不过,要说起它的由来,就得提到一个专业词汇:神经元(Neuron)。在生物和神经科学领域,它是神经系统的基本单位,负责接受、处理和传递信息。
早在1943年,有两位科学家,名叫McCullouch和Pitts,他们发表一篇非常重要的论文,名字叫做:
《A Logical Calculus of the Ideas Immanent in Nervous Activity》
论文中,提到了一个数学模型,叫做“McCulloch-Pitts神经元”,也就是人工神经元的早期形式。通过模型,我们可以模拟,并解释生物大脑是如何传递信号的。
这不难理解吧?有了对神经元的理解,科学家能更深入的知道如何模拟一个生物的大脑系统。
随着不断研究,7年后(1950年),一位英国学家艾伦·图灵(Alan Turing)发表一篇论文,探讨了“机器能思考吗?”图灵通过著名的「图灵测试」,探索机器会不会更智能。
到了1956年,在一个叫达特茅斯学院(Dartmouth College)的地方,几位研究计算机和自动化的科学家聚在一起,讨论预测机器是否能模仿人类学习的行为;麦卡锡在会议中提出一个想法:
希望在夏天的1-2个月内,凭借10几个人的努力,让机器能够使用语言、形成抽象概念和解决各种问题的方法,最终达到与人类相似的智能水平。
因此,这次会议上:AI才作为一个独立学科被成立。一晃之间,又7年过去了,1960年左右,多名研究者对人工智能的发展做出了贡献。
比如:
斯坦福大学研究者们,开发了珀西瓦尔(Perceptron),基于神经元结构,展示机器如何学习;著名的逻辑理论家赫伯特·西蒙(Herbert Simon)和他的团队,基于数学定理,开发出一套自动推理的程序。
还有很多......
但是,到了70年代中期(1974年),因为技术发展没有达到大家希望的水平,加上经济压力,美国政府才开始削减对AI领域的资助,这导致了所谓的历史上第一个:AI寒冬的出现。
直到又过了7年后,专家系统的商业成功让AI研究有了复苏的标志,市场才对AI领域有了新关注和投资机会。看到这里,你可能会问:什么是专家系统呢?
千万不要误解,专家系统不是管理专家的。
它是一套特别的计算机系统程序,它能学习各种规则、知识、模仿人类专家做决定;可以把人类专家的知识,转变成计算机能理解和使用的形式,让它在市场上真正派上用场。
可是,好景不长,7年后(1987年),AI又引发了第二个更长的寒冬。
失败的结论无法用一句言语来表达,不过,有几个关键节点,一,专家系统看起来有前景,但不赚钱,不能广泛使用;二,技术所依赖的Lisp编程语言,有性能瓶颈,要消耗大量硬件成本;三,Lisp编程所用的计算机系统过时了,导致市场溃败。
这不仅影响到上游制造商,还涉及到人工智能的研究。
所以,许多研究项目停滞不前,导致市场对人工智能大幅度降温,这一寒冬,持续小10年。
直到1990年,互联网算法兴起,人工智能才算恢复活力,同年,一位非常有影响力的计算机教授Yann LeCun,贡献了卷轴神经网络(CNN)的发展,才推动了神经网络的实际运用。
到了2000年,AI背后所承载的技术才被运用到各领域。
这一段60年的脉络,只为让你清晰展示AI的发展,它从一条神经元,到成为系统,经历了什么。
第二个,关于AI怎么更像人。想象一下:
如果我们想让人工智能更像人类,是不是要先给它构建一个类似于人类大脑的模型,让它拥有一个「操作系统」,能够模拟人脑的工作方式。
这意味着,我们得不断挖掘它,让它有注意力机制,让它会能够学习,还能看得见周围的一切,甚至说,还得自我优化。没错,这正是人工智能专家们正在做的事情。
你知道吗?
2000年以后,AI技术越来越广泛,不管做什么,只要和智能相关,都会给它贴上人工智能标签,不同技术之间的差异,到底该如何有效区分就成了一个问题。
2002年,人工智能领域有两位科学家,Ben Goertzel和Cassio Pennachin合著一本书《Artificial General Intelligence》,翻译成中文是《人工通用智能》。
它提到了AI的子领域,也就是AGI。
G是 General的缩写。意思是通用的、全能的。这意味着,它的通用智能水平能和人类相媲美,不仅能执行特定任务,还能在多种环境、情境下学习知识,进行自我改善。
看到这,你兴许更困惑。
我们一般觉得,既然叫做人工智能,AI能力应该比AGI广泛,实际上情况并非如此。它俩区别在于,AI被特别训练来完成某个具体任务,学习能力和适应性都有明确的限制。
而AGI,具备自主智能,可以理解和解决之前未遇到的问题,不仅限于单一任务。简单来说,AGI像可以在任何情况下都能够应对的智能,而AI则更像只擅长特定领域的专家。
图译:便于理解,画了一张示意图图,供你参考,未来AI的终极目标,让它像人一样
因此,该怎么给别人一句话介绍AGI?
我会说:AGI是通用人工智能,让机器能像人一样,在很多不同事情上能自己想办法解决;它跟AI区别在于,AI专门为某个任务设计,而AGI则可以处理任何问题,像人一样,更强大。
有一个与AGI相似的词,叫Gen AI了。
Gen背后英文是General,AGI中的G也是General,不要惊讶,它俩意思相同。那么,市面为什么有人喜欢叫GenAI,有人叫AGI?
有两点:
一,源于发展。不同地域差异,大家叫法不同;二,和产品有关。商业环境中,大家喜欢用一些不同的叫法来突出自己的产品特色;不过,在全球范围和学术文献场景下,目前AGI称呼更为普遍。
所以,这10年的故事中,AGI发展不仅让机器在复杂环境中,有了更深层次的学习能力,还让特定任务的窄AI(也称为弱AI(Weak AI),也变得更智能了。
第三个,关于大模型(Large Model)。
讨论不同模型,了解2010年到2017年的AI发展至关重要。从2010年开始,AGI领域越来越多投资者进入,深度学习也就成了研究和应用的焦点。
2015是注意力转折点,得益于硬件进步和大数据的支持,DeepMind开发的AlphaGo击败了世界围棋高手李世石。这一事件后,让大家更相信AGI会变得更强、更像人类。
同年,OpenAI在美国成立,为后来大模型发展奠定了基础。那么,什么是大模型呢?
“大”,指,模型处理信息量很大,在人工智能中,我们称信息为“参数”(Parameters),模型,像小时候玩的玩具,虽然是虚拟的,却能执行真实的任务,当你问它一个问题时,它能迅速给出答案。
我通常这样解释:大模型是,能够处理大量复杂数据的高级程序,像一个超级聪明的大脑,可以学习和处理许多不同的事情。
那么,小模型(Small Model)是什么呢?
与大模型相对,小模型参数数量少,结构简单,计算资源需求也不高。这些模型专为特定领域设计,比如营销自动化、儿童早教、或帮助孩子学习古文等,更专注于解决特定类型的问题。
虽然在2015年左右,大模型还不为大众知晓,但到了2017年,谷歌发表了《Attention Is All You Need》这篇论文后,彻底改变了大语言模型(Large Language Model, LLM)领域的面貌。
因为,这篇论文介绍一种基于multi-head自注意力机制的深度学习Transformer架构。这种架构,推动了处理语言的模型的发展,它能更加灵活的能模仿人类的情感和语言风格。
大语言模型和大模型,最主要的区别是:大模型能处理很多不同类型的任务,比如图像识别、数据分析等;而大语言模型,主要是用来处理文字,比如,帮我们写文章或翻译语言。
另外,值得一提的是:
自然语言处理(NLP)技术是AI领域中的一个核心分支,它包括自然语言理解(NLU)和自然语言生成(NLG)。
当我们在和AI对话时,输入的每一个字或词叫做token。AI会把文本分割成最小的单位来学习,这个过程称为tokenization(分词);例如:句子,”你吃了吗“,一个常见的分词方法将其分为三个tokens,“你 / 吃了 / 吗”。
还有一个与大语言模型经常混淆的词:GPT。
GPT是Generative(生成式)、Pre-trained(预训练)Transformer(一种模型架构)三者的缩写,ChatGPT和GPT不是同一回事,不要混淆。
ChatGPT是OpenAI公司基于GPT模型,开发的特定产品,主要用于生成文本,而GPT本身代表一种广泛的模型系列,像sora也是GPT模型的产品之一。
所以,当别人问起时,我会说:
大语言模型像一个操作系统,它为处理、理解语言提供了基础框架;GPT更像系统上的一个应用程序,它利用框架来执行任务;至于ChatGPT,是基于GPT模型开发的一款具体产品,就像电脑上的聊天工具。
明白它非常重要,国内一些产品,某种程度上,也可以称它为类似GPT的模型。
毕竟,它们同样基于自注意力架构进行预训练,也能生成文本;所以,虽然优化方法不同,但技术核心上,基本一致。
这7年,让大模型、大语言模型(LLM)发生了关键变化。通过时间脉络,你也能理解到几者有何不同。
第四个,关于AIGC。什么是AIGC?
这里的”C”代表Content,中文意思是“内容”。AIGC的全称是“人工智能生成内容”,涵盖文本、图像、视频和音乐等多种形式。
因此,AIGC包括四个方面:文生文、文生图、文生视频、文生音乐。
说起来,你也许不信,历史时间脉络中,并没有哪位科学家首次提出该术语,它是在人们不断讨论中,逐渐形成的一种通用描述。
想彻底了解AIGC,不妨再看7年。
从2018年到2020年的3年里,一项调查显示,全球有72个活跃的AGI研发项目,分布在37个不同的国家;本质上,是研究openAI、DeepMind、Anthropic等公司。
这些公司都在做什么?简单说,DeepMind是专注创造AGI的公司,目标让机器的智能能够和人类相媲美;而OpenAI,则因其开发的大型模型,引起广泛关注。
再看最近4年,AIGC技术几乎在各行业的涌现。现在,照片不仅能一键美颜,还能一键抠图,并且处理的更精细;做PPT,不仅能根据大纲生成内容,还直接匹配的配图素材。这背后都得益于小模型,多模态发展。
多模态(Multimodal)技术,即:一个AI模型能处理不同类型的数据(文本、图像、音频),还能将不同形式的信息,整合在一起,从而进行更全面的分析和理解。
因此,一个最重要启发在于:
未来更加垂直领域的信息,将会被开发出来,这些信息反哺给模型,模型经过参数调整后重新学习,将变得更加聪明,这种发展,越来越逼近AGI的目标。
作为个人,理解整个AI发展,能有一个宏观框架在心里,下次看到不同产品时能知道,公司处在哪个赛道中。
当然,每个细分赛道里,还有更多更专业的术语,像AI+营销领域还有很多小模型,如:动态定价模型、情感分析模型、用户流失模型、ROI预测模型等等,这些像人的思维模型一样,被格栅化在多模态里。
好了。
四个大概念讲完了。关于AI、AGI、大模型、小模型、大语言模型(LLM)、GPT、AIGC、多模态,按照时间轴加在一起,共计发展了81年。
这81年中,几乎7年一个小变化,但也不是绝对,你有什么感受?
有大视角,才不会被细节迷惑。
随着AI发展,未来,旧工作会被加速迭代,新行业虽然没起来,但必有新机会出现,了解AI,才能迎接新的时代,更好的驾驭它。
本文来自微信公众号“王智远”(ID:Z201440),作者:王智远