从玻尔兹曼机到多模态大模型：Geoffrey Hinton的最新AI洞见

3011点击 2024-05-25 10:44

在人工智能的辉煌历史中，Geoffrey Hinton 教授不仅是深度学习的奠基人之一，更是推动了整个领域从理论到实践的转变。在这次深入的访谈中，Geoffrey Hinton分享了自己在人工智能研究中的个人经历、对深度学习未来发展的深刻见解，以及对当前技术可能带来的社会影响的深思熟虑。

在讨论自己的研究兴趣时，Hinton 教授提到了 Donald O. Hebb 和 John von Neumann 对他的影响，以及他对大脑工作方式的直觉。他分享了自己对于神经网络的早期探索，以及如何通过实验和研究逐步验证这些直觉。

Hinton 教授的专业观点在多个方面展现了他深邃的思考和前瞻性的视野。他强调了大脑学习机制与反向传播算法之间的联系，并提出了大脑可能采用不同于传统算法的学习机制。

在讨论当前深度学习模型的能力和未来潜力时，Hinton 教授表现出了乐观态度。他认为，尽管目前这些模型在模拟人类意识和推理方面还有很大的提升空间，但随着模型规模的不断扩大和多模态数据的融合，它们将能够展现出更高级别的创造力和推理能力。Hinton 教授的专业观点进一步指出，大型语言模型通过寻找数据中的共同结构，能够以更有效的方式对事物进行编码，这是它们能够学习不同领域知识的关键。

同时，Hinton 教授也表达了对于人工智能技术可能被滥用的担忧。他强调了在推动技术发展的同时，必须考虑到其对社会的潜在影响，并寻求适当的监管和指导。这些担忧体现了Hinton 教授作为一位科学家的社会责任感，也提醒我们在追求技术进步的同时，不应忽视伦理和社会责任。

以下是本期内容目录：

01 Geoffrey Hinton的AI学术观点

02 AI未来方向展望

01 Geoffrey Hinton的AI学术观点

Joel Hellermark：这些年来，最大的转变不仅仅是算法方面，还包括了规模的提升。你是如何看待这种规模的与日俱增的？

Geoffrey Hinton：Ilya很早就有了这种直觉。他一直在宣扬，只要让模型变大，效果就会更好。我当时认为那有点像托辞，你也需要有新的想法。事实证明，Ilya基本是对的。新的想法确实有所帮助，比如Transformer模型的提出。但数据和算力的大规模扩展才是真正的关键。当时我们无法想象计算机会变得比现在快上十亿倍，我们以为最多只会快100倍。我们当时努力寻求巧妙的想法来解决问题，如果有了现在这样的大规模数据和计算力，很多问题本可以自己迎刃而解。

大约在2011年，Ilya和另一位叫James Martens的研究生提出了一篇基于字符级预测的论文。我们利用维基百科的数据，尝试预测下一个HTML字符，结果效果出奇的好。我们当时使用的是GPU上的一种复杂优化器，结果看起来就像模型真的理解了内容一样，这让我们始终感到难以置信。

Joel Hellermark：训练模型预测下一个词是怎样的过程？为什么这种思路是错误的？

Geoffrey Hinton：实际上，我并不认为这种思路是错误的。事实上，我做出了第一个使用嵌入和反向传播的神经网络语言模型。过程非常简单，数据只是三元组，它把每个符号转换成嵌入，然后让这些嵌入相互作用来预测下一个符号的嵌入，再从中预测下一个符号。整个过程使用反向传播来学习这些三元组。我证明了它能够推广。

大约10年后，Yoshua Bengio使用了一个非常相似的网络，证明它可以用于真实文本。再过了10年，语言学家才开始相信嵌入的概念，这是一个缓慢的过程。

我认为它不仅是在预测下一个符号，因为如果你问，预测下一个符号需要做些什么，尤其是当你问了一个问题，答案的第一个词就是下一个符号时，你必须理解这个问题。所以我认为，通过预测下一个符号，它与旧式的自动补全完全不同。旧式自动补全会存储一些三元组词组，然后如果看到一对词，就会看这对词后面最常出现的第三个词是什么，从而预测下一个符号。大多数人认为自动补全就是这种形式。但现在已经完全不一样了，为了预测下一个符号，你必须理解之前说过的内容。所以我认为，让它预测下一个符号就是强迫它去理解，而且它理解的方式与我们非常相似。

很多人会告诉你，这些模型并不像我们一样，它们只是在预测下一个符号，而不是像我们这样进行推理。但实际上，为了预测下一个符号，它必须进行一些推理。我们已经看到，如果你训练一个大模型，不需要输入任何特殊的推理知识，它已经可以进行一些推理了。我认为当模型变得更大时，它们将能够进行更多的推理。

Joel Hellermark：你认为现在你做的不只是预测下一个符号，对吗？

Geoffrey Hinton：我认为这就是你正在学习的方式。你在预测下一个视频帧，预测下一个声音。但我认为这是一个相当可信的大脑学习方式的理论。

Joel Hellermark：是什么让这些大语言模型能够学习各种不同领域的知识？

Geoffrey Hinton：这些大语言模型所做的是寻找共同的结构，通过发现共同结构，它们可以用更有效的方式对事物进行编码。让我给你一个例子，如果你问GPT-4"为什么堆肥堆和原子弹类似"，大多数人都无法回答，他们认为堆肥堆和原子弹是完全不同的事物。但GPT-4会告诉你，虽然能量和时间尺度不同，但它们都涉及链式反应，当堆肥堆越热就会发热越快，当原子弹产生的中子越多，产生的中子就越快，所以它们其实都是链式反应的形式。

我相信GPT-4已经理解了这一点，并将这种理解压缩到了它的权重参数中。如果它真的这样做了，那么对于成百上千种我们还没有发现的类比，它也会这样做，这就是创造力的来源，即看到表面上完全不同的事物之间的相似之处。所以我认为，随着模型越来越大，GPT-4 将变得非常有创造力。认为它只是在重复它所学到的知识，拼凑已有的文本是完全错误的，事实上它将比人类更具创造力。

Joel Hellermark：你认为它不仅能重复目前人类开发的知识，还能超越这些知识，走向更高层次。我认为这是我们目前还未完全看到的。你认为是什么将使它能够超越当前水平？

Geoffrey Hinton：在一些有限的领域里，我们已经看到了这一点。比如在著名的与人类职业棋手李世石的对抗赛中，第37手时AlphaGo下出了一步棋，所有专家当时都认为那是一步错棋，但后来他们意识到那实际上是一招妙棋。所以在这个有限领域内，它已经展现出了创造力。我认为随着这些系统变得越来越大，我们将看到更多这样的例子。

Joel Hellermark：AlphaGo最初是通过模仿学习，观察人类下棋来学习的，然后通过自我对弈，它的表现远远超出了模仿学习的水平。你认为这是目前缺失的关键部分吗？也就是自我对抗性的学习？

Geoffrey Hinton：这可能确实是目前缺失的一个重要部分。但我不认为这是完全必需的。

很久以前我做过一个小实验，训练一个神经网络识别手写数字，这是最经典的例子。在训练数据中，我将一半的答案设置为错误的。问题是，在有一半错误标记的情况下，它能学到多好？而且我保持了这些错误标记，并没有在不同的样本中给出正确答案，让它有机会通过平均来抵消错误。也就是说，对于某些样本，无论如何都会给出错误的标记。所以训练数据有50%的错误，但如果你用反向传播训练，它最终的错误率能降到5%以下。换句话说，即使有错误标记的数据，它也能获得比训练数据更好的结果。它可以识别出训练数据是错误的。

这就像一个聪明的学生可能比他的导师更聪明一样。导师告诉他们很多东西，但对于其中一半，学生会想"这太荒谬了"，然后只听从另一半建议。最终，学生比导师更聪明。这些大型神经网络也能做到比它们的训练数据更出色的表现，但大多数人并没有意识到这一点。

Joel Hellermark：你期望这些模型如何将推理能力融入其中？一种方法是在模型之上添加一些启发式的东西，就像现在很多研究工作在做的那样，引入"思维链"反馈推理结果。另一种方式是在模型自身中，通过不断扩大规模来实现，你对此有何直觉？

Geoffrey Hinton：我的直觉是，随着我们不断扩大这些模型的规模，它们的推理能力就会变得更好。粗略来说，人类是拥有一些直觉，然后利用推理来纠正直觉。当然，在推理过程中我们也会使用直觉，但如果推理的结论与直觉发生冲突，我们就会意识到需要改变直觉。这有点类似于AlphaGo或AlphaZero中的评估函数，它只是看棋盘并评估当前局面对我们有多有利，但当你进行蒙特卡罗树搜索时，就会得到一个更准确的评估，然后你可以修正评估函数。

所以你可以通过让模型与推理结果保持一致来训练它，我认为这些大型语言模型必须开始这样做，它们必须开始使用推理来训练其原始直觉，认识到直觉并不总是正确的。通过这种方式，它们可以获得比简单模仿人类更多的训练数据。这也正是AlphaGo能够做出创造性第37手的原因，因为它使用推理来检查下一步棋应该是什么，从而获得了更多的训练数据。

Joel Hellermark：你对多模态模型有何看法？我们谈到了这些模型能发现超出人类认知的类比，抽象层次可能超出我们永远无法理解的程度。当引入图像、视频和声音时，你认为这会如何改变模型？会如何改变它能够发现的类比？

Geoffrey Hinton：我认为这会带来很大改变。它将使模型更好地理解空间概念，因为单凭语言很难理解一些空间概念，尽管就算在没有多模态之前，GPT-4已经可以做到这一点，但当变为多模态，让它同时进行视觉处理和机器人臂操作拿起物体翻转等，它就会更好地理解物体概念。所以尽管依靠语言你可以学习很多东西，但多模态会让学习更加容易，这时你甚至需要更少的语言信息。现在就有很多预测视频下一帧的数据集可供训练。所以多模态模型显然会占据主导地位，它们可以获得更多数据，需要更少的语言信息。

从哲学上讲，你可以单单从语言中学习到一个非常好的模型，但通过多模态系统学习会更加容易。

Joel Hellermark：你认为这会如何影响模型的推理能力？

Geoffrey Hinton：我认为它会让模型更好地推理出与空间有关的事物，比如推理出当你拿起物体时会发生什么情况。如果你真的尝试拿起物体，你就会获得各种各样有助于推理的训练数据。

Joel Hellermark：你认为人类大脑是进化出来适应语言，还是语言进化出来适应人类大脑？

Geoffrey Hinton：这是一个非常好的问题。我认为两者都发生了。我过去曾经认为，我们在不需要语言的情况下就能进行大量认知活动。但现在我有了一些不同的看法。让我从三个不同的角度来看语言与认知之间的关系:

第一种是传统的符号主义观点，即认知就是在一种清晰无歧义的符号逻辑语言中操作符号串，并应用推理规则。这是一种极端观点。

与此相反的另一种极端观点是，一旦进入大脑内部，一切都是向量。符号输入后会被转换为大型向量，内部所有操作都在向量层面进行，如果需要产出，则再从向量生成符号。大约在2014年的机器翻译领域，人们使用递归神经网络，词语不断输入并更新隐藏状态，当一个句子输入完毕时，就获得了一个捕获句子意义的大型隐藏向量，可用于生成另一种语言的句子，这被称为思维向量。这就是第二种观点，将语言转换为与语言完全不同的大型向量，认知活动都在向量层面进行。

但我现在相信的是第三种观点，即将这些符号转换为嵌入向量，并使用多层嵌入，得到非常丰富的嵌入向量。但这些向量仍然对应着符号，因为每个符号都有一个大型向量表示，这些向量相互作用以预测下一个词的向量。理解的本质就是知道如何将符号转换为向量，以及向量的各个元素应该如何交互作用来预测下一个符号的向量。这种方式同时体现在大型语言模型和人脑中。

这是一种中间地带，你并没有完全摆脱符号，而是将符号转换为大型向量，但保留了符号的表面结构，所有工作和知识都存在于你使用的向量及其交互作用方式中，而不是符号规则。这似乎是一种对人类思维更加合理的模型，模型和人脑的工作方式如出一辙。

Joel Hellermark：你是最早意识到使用GPU进行神经网络训练的人之一。我知道黄仁勋对此很钦佩。回到2009年，你告诉黄仁勋这可能是训练神经网络的一个不错的主意。能让我们重温一下当时你使用GPU训练神经网络的早期直觉吗？

Geoffrey Hinton：实际上，大约在2006年，我有一位研究生，他是一位出色的计算机视觉专家。在一次会议上，他对我说，你应该考虑使用GPU，因为它们在矩阵乘法运算方面效率很高，而你正在做的基本上就是矩阵乘法运算。最初我们只买了一些游戏GPU，发现它们使速度提高了30倍。后来我们买了一台有4个GPU的Tesla显卡，用于语音识别，效果非常好。

然后在2009年的NIPS会议上，我告诉了1000名机器学习研究人员，你们都应该去买英伟达的GPU，这是未来，你们需要它们来做机器学习。实际上，我当时还给英伟达发了邮件说，我已经告诉1000名机器学习研究人员购买你们的显卡，能不能免费给我一张。他们当时没有回复，但后来当我把这个故事告诉黄仁勋时，他给了我一张免费显卡。

02 AI未来方向展望

Joel Hellermark：我觉得很有趣的是，GPU的发展与这个领域走到今天是如何相辅相成的。你觉得在计算硬件方面，我们接下来应该朝什么方向发展？

Geoffrey Hinton：在我最后几年在谷歌工作时，我一直在思考如何尝试类脑的模拟计算，以便像大脑那样只需30瓦特的功率，而不是像目前需要的那样高达兆瓦级别的功耗。这样我们就可以在模拟硬件上运行这些大型语言模型。但我从未真正做到过。不过，我开始非常欣赏数字计算了。如果要使用功耗低的模拟计算，每块硬件都会略有不同，学习的目的就是利用每块硬件的特定属性，这也正是人脑的情况，我们每个人的大脑都是不同的。

所以，我们无法将你大脑中的权重直接放到我的大脑中，因为硬件是不同的，每个神经元的确切属性也是不同的。学习过程会利用所有这些差异。因此，我们是必朽的，我大脑中的权重对其他大脑来说毫无用处。当我死去时，那些权重就变得无用了。我们之间只能通过一种低效的方式传递信息，即我产生句子，你会推理出如何改变你的权重，从而说出同样的句子，这被称为"蒸馏"，或者说提炼知识。

但在数字系统中，它们是不朽的。一旦你获得了一组权重，就可以丢弃计算机硬件，只需将权重存储在磁带上，重建另一台计算机后加载那些权重，如果是数字系统，它就能够与之前完全相同的计算。因此，数字系统可以共享权重，这种效率要高得多。如果你有一大批数字系统，每个系统都做一点点学习，它们从同样的权重开始，做一点点学习，然后再共享新的权重，这样每个系统都知道其他系统所学到的。而我们人类是无法做到这种共享知识的。

Joel Hellermark：许多在这个领域中应用的想法都是古老的、源远流长的想法，你认为还剩下哪些来自神经科学的想法可以应用到我们开发的系统中？

Geoffrey Hinton：我们仍需在时间尺度变化方面赶上神经科学。在几乎所有神经网络中，都有快速的活动变化时间尺度，即输入到来时嵌入向量会改变；还有一个慢速的权重变化时间尺度，即长期学习。但在大脑中，权重变化有许多时间尺度。

例如，如果我说一个意外的词像黄瓜，5分钟后你戴上耳机，听到有噪音掩盖下的微弱词语，你会更容易识别出黄瓜一词，因为我5分钟前刚说过。那么这种知识储存在大脑的哪里呢？显然不是神经元一直在重复黄瓜，因为神经元的数量是有限的。这种知识存在于暂时性的突触权重变化中。我们目前的神经网络模型并没有利用这种快速权重机制。

原因在于，如果权重的暂时性变化取决于输入数据，那么我们就无法并行处理一大批不同的数据，因为目前我们会将不同的数据串联成批，然后并行处理，这样可以进行高效的矩阵乘法运算。这种追求效率的做法阻碍了我们使用快速权重。但大脑显然在利用快速权重进行临时记忆存储，通过这种方式可以做很多我们目前还无法做到的事情。我认为这是我们必须弥补的最大差距之一。

Joel Hellermark：了解这些模型和大脑是如何工作的，对你的思维方式有何影响？

Geoffrey Hinton：有一个重要的影响，在一个相当抽象的层面上。多年来，人们对于利用一个大型随机神经网络，只通过大量训练数据就能学会复杂事物的想法嗤之以鼻。如果你问统计学家、语言学家或大多数人工智能从业者，他们会说那只是一个白日梦，没有办法在没有先验知识、没有许多架构上的限制的情况下，学习真正复杂的事物。

事实证明，这种想法完全是错误的。你可以拥有一个大型随机神经网络，只通过数据就能学习到许多事物。利用随机梯度下降不断调整权重来学习事物，包括大型复杂的事物，这一点已经被这些大型模型所证实，这对于理解大脑是一个非常重要的认知。

大脑并不需要拥有所有先天的结构，虽然它确实具有很多先天结构，但绝不需要先天结构来学习那些可以很容易习得的事物。所以来自于诺姆·杭士基（Noam Chomsky）的观点，即除非语言等复杂事物的能力是先天赋予的，并随着年龄增长而逐渐成熟，否则你是无法习得它们的。这种观点现在显然是荒谬的。

Joel说:我想Chomsky可能不会赞赏你说他的观点是荒谬的。

Geoffrey Hinton：实际上我认为Chomsky在中东问题等方面的政治观点是相当明智的。让我感到惊讶的是，一个在这些问题上观点如此明智的人，怎么会对语言学问题有如此错误的看法。

Joel Hellermark：你认为有什么能让这些模型更有效地模拟人类意识？比如说，想象你有一个全生命周期内都在交谈的AI助手，保留上下文记忆，而不是像现在的AI助手那样每次对话都会删除记忆。如果将来你离世，有人告诉这个助手这个消息，你认为这个助手会有什么感受吗？

Geoffrey Hinton：我认为它们也可能会有感受。就像我们有一个内在的感知剧场模型一样，他们也有一个内在的感受模型，那些只有我能体验到的东西，别人无法体验。但我觉得这种内在模型同样是错误的。

比如我说我觉得应该打加里的鼻子，实际上我想告诉你的是，如果不是受到额叶抑制的影响，我就会执行这个动作。所以当我们谈论感受时，我们实际上是在谈论如果没有约束，我们会执行的那些行为。

因此，我认为在此层面上可以对感受给出同样的解释，没有理由认为这些系统不能拥有感受。事实上，1973年我曾看到一个机器人有过情绪反应。那是在爱丁堡，有一个机器人装有两个像这样的机械手臂，它可以通过在绿色毡垫上分别放置零件来组装一辆玩具汽车。但如果你把零件堆在一起，它由于视觉能力不足无法识别，就会把机械手并拢、砰地一下将这堆零件打散，然后它就可以把零件组装起来了。如果你看到一个人这样做，你会说他对这种情况感到沮丧，因为他无法理解，所以才把它摧毁。

Joel Hellermark：之前你将人类和大型语言模型描述为类比机器，那么在你的生活中，你发现过最有力的类比是什么？

Geoffrey Hinton：影响我很大的一个相对微弱的类比，是宗教信仰和符号处理信念之间的类比。我从一个无神论家庭出身，上学后接触到了宗教信仰，那对我来说就像胡言乱语。当我看到符号处理被用作解释人类行为方式时，我也觉得那只是同样的胡言乱语。

现在我不认为符号处理理论像过去那样荒谬了，因为我们确实在进行符号处理，只不过是通过为符号赋予大型嵌入向量的方式。但我们并非按照人们认为的那样只是简单地匹配符号是否相同，符号的唯一属性并不是与另一个符号相同与否。我们是利用上下文为符号赋予嵌入向量，然后利用这些嵌入向量分量之间的相互作用进行思考。

谷歌有一位出色的研究人员费尔南多·佩雷拉说，我们确实进行符号推理，而我们唯一的符号推理是自然语言。自然语言是一种符号语言，我们用它进行推理。我现在也相信这一点。

Joel Hellermark：你完成了计算机科学历史上最有意义的一些研究工作。能请你解释一下，你是如何选择合适的问题去攻关的？

Geoffrey Hinton：首先，我想纠正一下，不只是仅凭我个人，而是我和我的学生们共同完成了许多最有意义的工作，这主要归功于我们之间的良好合作，以及我能够精心挑选出优秀的学生。之所以能这样挑选，是因为在70年代、80年代、90年代和2000年代，从事神经网络研究的人很少，所以这些少数人就能挑选到最优秀的学生。

我选择研究问题的方式基本上是，当科学家谈论他们的工作方式时，他们会提出一些理论，而这些理论可能与事实没有多大关系。但我的理论是，我会寻找一些每个人都认同但我直觉中感觉不对的事物，然后我会努力阐述为什么我认为那是错误的。也许我可以编写一个小型计算机程序来证明，事情并不像你预期的那样运作。

让我举一个例子，大多数人认为，如果给神经网络加入噪声，它的表现就会变差。比如，每次输入一个训练样本时，让一半的神经元静默，它的表现应该会变差。但实际上我们知道，如果这么做，它的泛化能力反而会更好。你可以通过一个简单的例子证明这一点，这就是计算机模拟的好处，你可以证明你之前的想法是错误的，即加入噪声会使表现变差，使一半神经元静默会使表现变差，虽然短期内确实会使表现变差，但如果以这种方式训练，最终表现会更好。然后你就可以深入思考，这是为什么，以及它如何阻止了复杂的协同适应。

所以我的工作方法就是，找到一些可疑的事物，研究它，看看是否能通过一个简单的示例来证明它是错误的。

Joel Hellermark：目前你觉得有什么事情很可疑？

Geoffrey Hinton：我觉得很可疑的是，我们没有利用快速权重，我们只有两种时间尺度。这与大脑的情况完全不同，显然是错误的。从长远来看，我认为我们必须拥有更多不同的时间尺度。

Joel Hellermark：如果你现在有一群学生，他们来问你，你所在领域的最重要问题是什么，你会建议他们下一步攻关什么问题？我们之前谈到了推理和时间尺度等问题，你认为最高优先级的问题是什么？

Geoffrey Hinton：对我来说，在过去30年左右的时间里，我一直在思考的问题是，大脑是否在做反向传播。我相信大脑在获取梯度，如果没有梯度，学习效果肯定会比有梯度差很多。但大脑是如何获取梯度的？它是否以某种方式近似实现了反向传播，还是采用了一种完全不同的技术？这仍然是一个巨大的悬而未决的问题。如果我继续从事研究，这将是我关注的问题。

Joel Hellermark：现在回顾你的整个职业生涯，你在很多事情上都是正确的，但你曾经在哪些方面做错了，你希望自己当初能少花精力去追求某些特定方向？

Geoffrey Hinton：我认为我关于玻尔兹曼机(Boltzmann Machine)的观点是错误的，但我很高兴自己花了很长时间在上面。玻尔兹曼机比反向传播提供了一种更优雅的获取梯度的理论，反向传播只是一种普通的、合理的链式法则。玻尔兹曼机是一种巧妙的、非常有趣的获取梯度的方式，我当初希望大脑就是这样运作的，但我现在认为不是如此。

Joel Hellermark：在这些系统发展的过程中，你是否曾设想过会产生什么样的影响？你是否预料到，如果这些系统运作良好，我们可以实现教育民主化、使知识更加易于获取、或在医学领域解决一些棘手问题？还是你更多关注于理解大脑本身？

Geoffrey Hinton：我总的感觉是，科学家应该做一些有益于社会的事情。但实际上，要做出最好的研究，动力并不应该来自于此，而应该来自于好奇心，你只是想要理解某些事物。

直到最近，我才意识到这些系统除了能带来许多好处外，也可能造成严重危害，我开始更加关注它们对社会可能产生的影响。但这并非当初推动我的动力，我只是想要搞清楚大脑是如何学习去做事情的，这就是我想知道的。

我在这方面的失败导致了一些有用的工程成果，所以从这个角度来看，这也算是一次对世界有益的失败。

Joel Hellermark：从事物可能会走向美好的方向来看，你认为最有前景的应用领域是什么？

Geoffrey Hinton：医疗保健领域显然是一个重点。在医疗保健方面，社会可以吸收的资源几乎是无限的。如果一个老年人，他们可能需要5名全职医生。所以当人工智能在某些领域的表现超过人类时，我们希望它表现优异的领域就是我们需要大量资源投入的领域。我们确实需要更多的医生，如果每个人都能拥有3名私人医生，那就太好了，我们终将走向那一步。

这就是医疗保健领域如此重要的一个原因。另一方面，人工智能也将在新的工程领域发挥作用，比如开发新材料、更好的太阳能电池板、超导体，或者更好地了解人体机能等，在这些领域都会产生巨大影响，这些都是好的一面。

我担心的是，一些不法分子可能会将其用于坏的用途，比如一些政治家可能会利用人工智能制造杀手机器人、操纵舆论或进行大规模监控，这些都是令人非常担忧的事情。

Joel Hellermark：您担心放慢人工智能领域的发展也会减缓积极的进展吗？

Geoffrey Hinton：绝对担心。我认为这个领域不太可能放慢，部分原因是人工智能是一个国际性的领域，如果一个国家放慢了，其他国家不会放慢。中美之间显然存在竞争，两国都不会放慢步伐。有人呼吁我们应该在6个月内放慢发展，但我没有签署，因为我认为这不可能发生。也许我应该签署，即使它不可能发生，也能传达一个政治信号。有时候要求一些你知道无法获得的东西也是很好的，仅仅是为了表明立场。但我认为我们不会放慢发展的步伐。

Joel Hellermark：您认为这种智能助手会如何影响人工智能研究过程？

Geoffrey Hinton：我认为它会使研究过程更加高效。当你拥有这些助手帮助你编程、思考和处理方程式时，研究会变得更加高效。

Joel Hellermark：在选拔人才方面，您是如何进行判断的？是否主要依靠直觉，比如Ilya Sutskever出现时，您就觉得这是个聪明的家伙，值得合作？

Geoffrey Hinton：选拔人才有时候是凭直觉。和伊利亚谈了不久，我就发现他非常聪明，继续交谈后也证实了他不仅善于数学，而且有很好的直觉，所以这是毫无疑问的决定。另一个案例是，我在一个会议的海报展上，有个人不断提出深刻的问题，指出了我们工作的错误，问了5个问题后，我就邀请他加入我们实验室，那个人就是大卫·麦凯，他非常出色，很遗憾他去世了。有时候并非如此明确，我意识到人才各有不同，没有单一的优秀学生类型。有些学生创造力不太强，但在技术层面极为出色，能把任何事做好；另一些学生在技术上不太强，但创造力很高。当然最完美的是两者兼备，但并不总是如此。我想在实验室需要不同类型的研究生。不过，我还是会依赖直觉，有些人交谈几句你就觉得他们真正领会了要义，那些人才是你最想要的。

Joel Hellermark：您认为是什么原因导致有些人直觉更好？是他们获得的训练数据更好，还是怎样培养直觉的？

Geoffrey Hinton：我认为部分原因是他们不会被无稽之谈所迷惑。一种养成错误直觉的方式就是相信别人告诉你的一切，这是致命的。你必须能够拥有一个理解现实的框架，当有人告诉你一些事情时，你要努力把它融入这个框架，如果无法融入就直接拒绝。这是一个很好的策略。试图将任何被告知的东西都纳入框架的人，最终会得到一个模糊的、能够相信任何事物的框架，这是没有用的。所以我认为拥有一个坚实的世界观，努力让新获取的事实融入你现有的世界观是很重要的。显然，这也可能导致一些严重的宗教信仰或致命的缺陷，就像我曾对玻尔兹曼机有着盲目的信仰一样。但我认为，如果你拥有可靠的直觉，你就应该相信它。如果你的直觉是错误的，不管你做什么都没有用，那你不如也相信它吧。

Joel Hellermark：当您看到当今正在进行的研究类型时，您认为我们是不是把所有的资源都集中在某一个方向上了？我们是否应该多元化发展一些思路？还是说应该为了最有前景的方向全力以赴？

Geoffrey Hinton：我认为，即使只是为了预测下一个词，训练大型多模态数据模型也是一个非常有前景的方法，我们应该在这个方向上投入相当大的力量。显然现在有很多人在这么做，也有人在做一些看似疯狂的尝试，这是好事。但我认为大多数人都沿着这条路走也没有问题，因为它的效果非常好。

Joel Hellermark：您认为学习算法本身是否真的那么重要？还是说，有数以百万计的方法可以让我们达到人类智能水平？或者只有少数几种我们需要发现的算法？

Geoffrey Hinton：关于特定的学习算法是否非常重要，或者有各种各样的学习算法能够达到同样的目标，我不确定答案。但反向传播在某种程度上似乎是正确的做法，即获取梯度来调整参数使其工作更好，这看起来是合理的，而且取得了惊人的成功。可能还有其他学习算法是另一种方式来获得相同的梯度，或者获得某些其他有助于构建好的系统的目标的梯度。这个问题是开放性的，非常值得探索。现在关于是否还有其他可以尝试最大化的目标，从而获得好的系统，这很有趣，也许大脑就是在做这样的事情，因为这更容易做到。但反向传播在某种意义上来说是正确的做法，而且我们知道这确实非常有效。

Joel Hellermark：最后一个问题，当您回顾几十年的研究生涯时，您最自豪的是什么？是培养出来的学生，还是研究成果？在您的工作生涯中，哪些让您最感到自豪？

Geoffrey Hinton：让我最自豪的是玻尔兹曼机的学习算法。玻尔兹曼机的学习算法非常优雅，也许在实践中行不通，但它的发展过程让我和特里最感兴趣，这也是我最自豪的成就，即使它是错误的。

本文来自微信公众号“乌鸦智能说”（ID:wuyazhinengshuo），作者：智能乌鸦

从玻尔兹曼机到多模态大模型：Geoffrey Hinton的最新AI洞见

关键词: Geoffrey Hinton , 人工智能 , 深度学习 , 玻尔兹曼机 , 多模态大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI