大语言模型的局限在哪里?
AI教母李飞飞这样说:
大自然中是没有语言存在的,你不会从天空中直接看到文字。
语言是一种纯粹的生成的信号。
语言信号的输出主要基于人类给的输入信号,可以说,语言是不独立于人之外的。
然而,物理世界是客观存在的。所以提取、理解、生成3D世界的数据、实现空间智能和处理语言问题时截然不同。
没想到,李飞飞一年前的访谈被扒出来,又引发大量围观。
她这段话意味着,大语言模型或许还不是真正的智能。
真正的智能将是信号感知、物理以及和现实世界相结合的产物。
下面来看看大家还在热议些啥吧。
这场讨论的焦点在于,现在基于语言信号训练的模型到底懂不懂物理世界的常识。
首先,回顾一下李飞飞的说法。
她认为语言模型及当今的多模态语言模型的底层表示是一维的。它们在根本上就是操作于离散token的一维序列上,所以模型对于书面文本这种一维序列的表示是非常自然的。
然而,在处理空间智能问题时,核心是世界的三维本质。
虽然多模态大语言模型也能看图像,但它是将其他模态硬塞进这种一维token序列的底层表示中,这种一维且由人类生成的数据,可能无法很好地表示物理世界,造成信息损失。
如果直接让模型处理3D数据,那么表示类型与模型旨在执行的任务类型之间将会有更好的匹配。
而空间智能的挑战就是在于从这个真实世界中提取、表示和生成信息。
除了这个维度上的差异,从更哲学的角度来说,她认为语言是一种纯粹由生成产生的信号。自然界中并不存在预设的语言形式,也就是说语言不能独立于人类之外。
大模型能够通过学习并反刍所输入的数据,无论输入什么样的数据,模型都能用足够的泛化能力处理语言任务。这是因为语言,或者说文本的本质允许模型在生成范式下表现得出色。
与语言不同,3D世界是真实存在于外部的。这个世界遵循着物理定律,并因材料等多种因素而具有其自身的结构。
因此,要让模型倒推出3D世界的信息,并能够表示和生成它,在技术层面上,空间智能可以借鉴语言模型,但从哲学的范畴来看,这两者仍存在本质差异。
有人举了一堆例子来证明李飞飞的观点,同时说明语言模型在理解物理世界时确实有局限。
比如用一个小实验来测试Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro三个多模态大模型的物理常识,并与人类儿童表现做对比。
研究用Animal-AI这个用来测试动物和人工智能体物理认知的3D环境来测试大模型,让大模型通过前进/后退、左转/右转、环境描述与规划控制三个指令控制一个小角色在虚拟环境中完成任务。
第一个实验是让大模型完成一些简单的任务,如直接找到小球,还有一些稍难的任务,如躲开障碍物找到小球。
结果发现模型只能搞定最简单的任务,稍难一点就不行了。
第二个实验是在第一个实验的基础上增加教学案例,比如演示正确做法,结果模型表现也没有明显的提升。
对比之后再看,这些大模型的表现远不及人类儿童,也比不上专门为这个环境测试的机器人。
还有其他研究团队设计了一个名为ABench-Physics的工具,专门用来测试大语言模型在物理推理方面的能力,核心就是想搞清楚这些模型到底能不能真的理解物理、解决物理问题。
测试分两部分,Phy A由400道竞赛级别的物理难题组成,先给大模型来个基础测试。
Phy B属于动态部分:修改Phy A中题目的数字,但不改变物理原理,用来测试大模型能不能进行灵活的物理推理。
结果显示,最厉害的模型在Phy A上的正确率只有43%,而在Phy B中模型的平均准确率下降了22.5%。
这说明模型并不是真懂物理。
还有团队用视觉任务测试大模型,比如让模型判断照片中哪些物体更近,或者匹配相同的事物。
人类对这些任务的正确率能达到95.7%,而几个模型最高的正确率仅有51%。在视觉感知上,大模型还远不及人类。
这些结果都进一步证明了李飞飞之前访谈中关于大模型理解真实物理世界局限性的观点。
也得到了网友们的认同。
模型的开发确实正在扩展到将模型建立在物理与多模态理解的基础上。
当然了,有正方就有反方。
有人先是反驳了关于语言的论述。
也有人认为,在某些情况下,语言描述现实的能力可能会比感知更优。
还有人说模型的语言不用局限于人类的语言、文本等,人工智能或许能创造出自己的语言来理解物理世界。
或者,我们该思考,用语言训练大模型取得现有成就的根本因素又是什么呢?
对于这场讨论,你又有什么样的看法呢?
参考链接:
[1]https://x.com/rohanpaul_ai/status/1965242567085490547
[2]https://www.youtube.com/watch?v=vIXfYFB7aBI
文章来自于“量子位”,作者“闻乐”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/