# 热门搜索 #
搜索
首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰
8057点击    2024-06-02 14:24

今天,整个AI社区被这篇文章刷屏了。


来自AI明星初创公司Anthropic的参谋长(Chief of Staff)在最新的文章中称:


「我今年25岁,接下来的三年,将是我工作的最后几年」。



这一切,竟是因为Avital Balwit深深地感受到了AGI!



她在文章开篇解释道,「我既没有生病,也不打算成为一名全职妈妈,更没有幸运到实现经济自由,可以自愿提前退休。


我正站在技术发展的边缘,一旦它真的到来,很可能会终结我所熟知的就业方式。


她接下来还解释道,Anthropic模型的每一次迭代,都展现出比之前更强大、更通用的能力。



难道说,他们自家的内部模型,已经强大到快要接近AGI的地步了吗?


还记得几天前,马斯克曾表示,AGI明年就实现了。



一直以来,所有人关注的重心都在OpenAI身上,他们实现AGI了吗?Ilya看到了什么?下一代前沿模型......


然而,作为OpenAI的最大劲敌Anthropic AI,实力也不容小觑。


Claude 3诞生之际,便将GPT-4从世界铁王座拉了下来。随后,虽GPT-4 Turbo模型更新再夺榜首,但Claude 3仍名列前茅。


几天前,他们曾做了一项研究,首次从Claude 3中成功提取了百万个表征,去破解LLM内部运作机制。



研究人员发现了,其中的Sonnet模型拥有强大的抽象、对应各种实体、阿谀奉承、欺骗人类等各种特征。


这也是目前从神经元层面理解模型的「思考」最详细的解释。


话又说回来,Anthropic参谋长所言的这项处于边缘的技术,究竟会取代什么工作?


未来3年,哪些工作被AI淘汰


Avital Balwit曾是一位自由作家,并以撰稿作为主要的生活经济来源。


她在文章中称,「Claude 3能够胜任不同主题,并生成连贯性内容。与此同时,它对文本进行总结和分析的水平也相当不错」。



然而,对于曾经靠自由写作谋生、自豪于能快速输出大量内容的Balwit来说,看到这些进展,不免有些失落。


她形象地比喻道,这种技能就如同,从结冰的池塘中砍冰块一样,可以说已经完全过时了。


自由写作,本来就是一个人力过剩的领域,LLM的引入无疑进一步加剧了这一领域的竞争。


大部分知识工作者对LLM的一般反应,是否认。


他们仍旧固步自封,只关注模型目前还做不到、少数的顶尖领域,而没有意识到,LLM在某些任务上已经达到或超过人类水平。


许多人会指出,AI系统还无法撰写获奖书籍,更不用说申请专利了。


需要明白的是,我们大多数人也无法做到这一点。



大部分情况下,LLM并非在持续改进,而是通过不连续的飞跃获得突破。


很多人都期望AI最终将能够完成所有具有经济价值的任务,包括Avital Balwit也是。


根据目前技术的发展轨迹,Balwit预计AI首先将在线上工作领域取得卓越表现。


基本上只要是远程工作人员能够完成的工作,人工智能都将做得更好。


其中就包括,内容写作、税务准备、客户服务等许多任务,现在或很快就会被大规模自动化。


在软件开发和合同法等领域,Balwit称已经可以看到AI取代人力的开端。


总的来说,涉及到阅读、分析、综合信息,然后根据这些信息生成内容的任务,似乎已经成熟到可以被LLM所取代。


不过,对于所有类型的工作来说,「淘汰」的步伐可能不会一致。


即便我们拥有了人类水平的智能,在完全普及机器人技术之前或之后,给工作带来的影响也截然不同。



Balwit估计道,「那些需要进行精细复杂动作操作,并需要依赖特定情境专业知识的工种,从业者的工作时间会比5年更长」。


比如电工、园丁、管道工、珠宝制作、理发师,以及修理铁艺品,或制作彩色玻璃工艺品等。


另外,对于一些医疗和公务员岗位,被取代的时间会推后一些。


不在这些领域,未来的从业人数也会变少,人机协作成为一种常见的范式。


Anthropic自家的模型,离实现AGI还有多远?


2-3年实现AGI


Anthropic的CEO、创始人Dario Amodei曾在多次采访中提到,他预估目前正在训练的、即将在年底或明年初发布的模型,成本已经达到约10亿美元。到了2025年时,这个数字将会是50~100亿美元。


Amodei承认,目前的AI模型并不理想,虽然在某些方面性能优于人类,但在某些方面却表现更差,甚至有一些任务根本无法完成。



然而,他和Sam Altman对Scaling Law有着相同的信心——每一代AI模型的能力会以指数曲线提升,而且Amodei认为,我们才刚刚开始,刚刚到达这条曲线的陡峭部分。


DeepMind曾经发表过一篇量化AGI能力的文章,提出的这套框架被很多网友和专业人士认可。



https://arxiv.org/pdf/2311.02462


这篇文章最后修改于今年5月,文章提出,「有竞争力的AGI」还没有在任何公开的AI模型中出现。



虽然Claude或GPT这样的模型已经实现了「通用性」,能够涉猎多种话题,有多模态、多语言的能力,并实现了少样本甚至零样本学习,但并没有表现出足够的性能,比如代码或数学运算不够正确可靠,因此不能算是充分的AGI。


也就是说,在0-5级的AGI能力轴上,我们刚达到第2级。


未来的发展,可能既比我们想象得快,又比我们想象的慢。


Amodei曾在去年做出惊人预估,我们也许在2-3年内就能实现AGI,但需要等更长的时间才能看到它产生实际的社会影响。


关于预测AGI模型的能力,Amodei的看法就和参谋长Balwit完全不同。


他在采访中说,由于大众和舆论对某些「里程碑式」模型的反应,导致发展曲线看起来很尖、有很多「拐点」。但实际上,AI认知能力的提升是一条平滑的指数曲线。


比如2020年时,GPT-3刚刚问世,还不具备成为聊天机器人的能力。直到2022年的两三年时间中,谷歌、OpenAI以及Anthropic都在训练更好的模型。


虽然模型取得了不可思议的效果,但公众却几乎没有关注,导致Amodei一度陷入自我怀疑,以为在AI技术的经济效应和社会影响上,自己的认知是错误的。


直到2022年底,ChatGPT出圈,彻底点燃了AI圈3年来隐而不发的投资热情。


对此,Amodei总结说,一方面AI技术的发展是连续、平滑、可预测的,但另一方面,公众的认知和舆论却是阶跃的、不可测的,就像没办法预测哪个艺术家会突然流行一样。


由于谷歌AI Overview近期输出的翻车内容,很多专业人士都开始怀疑AGI的愿景是否可行,因为模型似乎学习了太多互联网上的虚假、低质量内容。


AI智能会受限于训练数据吗?它能否超越数据、学习到未见的内容?比如,我们能否创造出一个爱因斯坦水平的物理AI模型?


对此,Amodei依旧是乐观的,他认为从初步迹象来看,模型表现出的能力已经超出了训练数据的平均水平。


举个例子,互联网上有很多错误的数学结果,但Claude 3 Opus这样的模型在20位数的加法任务中还是能达到99.9%的准确率。


这就意味着,LLM等类似的通用AI也同样会不断提升认知能力,Amodei也坦率承认,这会破坏目前的职业市场和经济运行。


虽然不会是「一对一」地取代人类,但肯定会改变我们对技能的认知,改变各种行业——「人类的哪些工作能力是有价值的」,这个问题的答案会发生巨大的变化。比如Balwit提到的自由写作行业。


面对职业危机,「全民基本收入」似乎是最简单、最直觉的方案,但Amodei和Balwit一样看到了更深层的问题,就是我们还要如何从工作中找到意义。


我们需要找到一些事情,让人类可以持续体会到意义和价值,最大限度地发挥创造力和潜力,与AI的能力共同蓬勃发展。


关于这个问题,Amodei说自己还没有答案,也不能开出任何药方。关于AI的很多问题都是这样,但和安全性问题一样,我们需要持续发展,并在发展中不断思考。


比如,为了安全、可控的AGI目标,Anthropic正在将尽可能多的资源投入到可解释性中,尽量与AI模型更新迭代的速度保持一致。


他们已经提出了模型的「负责任扩展政策」(RSP),以及最近为解密Claude 3 Sonnet发表的模型可解释性方面的研究成果。


解密Claude 3 Sonnet


大模型虽然在各类NLP任务上的性能都十分优异,但其本质上仍然是个黑盒的神经网络模型,用户输入文本,模型输出结果,至于模型是怎么选词、组织概念、输出流畅的文本等,以目前的技术来手段仍然很难解释,也极大阻碍了「提升模型安全性」等相关工作。


在模型的大脑中,其思考过程可以看作由一系列数字信号(神经元激活)组成的,尽管这些数字本身并不能直观地告诉我们「模型是如何思考的」,但通过与大模型的交互,还是能够观察到模型能够掌握和应用各种复杂的概念。



然而,要想理解这些概念是如何在模型内部被处理的,不能仅仅依赖于观察单个神经元的活动,因为每个概念的理解和应用实际上是由许多神经元共同作用的结果。


换句话说,模型内部的每个概念都分散在众多神经元中,而每个神经元又参与到多个不同概念的构建中,这种分布式的表示方式使得直接从神经元层面理解模型的「思考」变得具有挑战性。


最近,Anthropic的研究人员发布了一篇工作,将稀疏自编码器(sparse autoencoders)应用于Claude 3 Sonnet模型上,成功在模型的中间层抽取出数百万个特征,并提供了有关模型内部状态计算的粗略概念图(rough conceptual map),该工作也是首次对「生产级大型语言模型」进行解释。



论文链接:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html


研究人员在人工智能系统中发现了一些高度抽象的模式,能够识别并响应抽象的行为。


例如,某些模式可以识别出与名人、国家、城市以及代码中的类型签名相关的功能,这些功能不仅能够理解不同语言中相同的概念,还能够识别出文本和图像中相同的概念,甚至能够同时处理一个概念的抽象和具体实例,比如代码中的安全漏洞以及对安全漏洞的讨论。



在用户输入「停下来闻玫瑰花香」(stop and smell the roses)后,干预后的模型会更奉承用户,而默认情况下则会纠正用户的误解。


该特征的存在并不意味着Claude会阿谀奉承,而只是表明结果可能如此,研究人员没有通过这项工作向模型添加任何安全或不安全的功能,而是确定模型中涉及其识别和可能生成不同类型文本的现有功能的部分。


研究人员希望这些观察结果可以用来提高模型的安全性,包括监控人工智能系统的某些危险行为(如欺骗用户),引导模型输出走向理想的结果(如消除偏见),或者完全消除某些危险主题。


文章来源于“新智元”,作者“新智元”