打脸“AI灭绝伦”,研究反驳:大模型涌现能力不会威胁人类生存

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
打脸“AI灭绝伦”,研究反驳:大模型涌现能力不会威胁人类生存
3905点击    2024-08-19 14:15

研究发现:大模型尚无法独立学习或获得新技能。


大语言模型(LLM)因“涌现能力”(emergent abilities)而拥有了超出人类预期的技能,但也因此让人类十分忌惮:操纵、欺骗人类,自主实施网络攻击,自动化生物研究...... 


然而,也有专家认为,这种过度的担忧会损害开源和创新,不利于人工智能(AI)行业的健康发展。当前,有关“AI 灭绝伦”的争论愈演愈烈。 


那么,“涌现能力”真的是导致 AI 大模型威胁人类生存的罪魁祸首吗?一项最新研究否定了这一观点。 


来自达姆施塔特工业大学和巴斯大学的研究团队发现,GPT 等 LLM 尚无法独立地学习或获得新技能,这意味着它们不会对人类构成生存威胁。 


他们表示,“涌现能力” 背后的真相或许比科幻电影更富有戏剧性,许多所谓的“涌现能力”,其实都是 AI 大模型在面对不熟悉的任务时,依赖于已有的数据和经验做出的“即兴表演”。 


相关研究论文以 “Are Emergent Abilities in Large Language Models just In-Context Learning?” 为题,已发表在 AI 顶会国际计算语言学年会(ACL)上。 


打脸“AI灭绝伦”,研究反驳:大模型涌现能力不会威胁人类生存


他们通过一系列实验验证了 AI 大模型在不同上下文条件下的表现,结果发现:在零样本(zero-shot)的情况下,许多大模型根本无法展现所谓的“涌现能力”,反而表现得相当一般。 


他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 


01 智能涌现:只是“即兴表演”?


AI 大模型的“涌现能力”来自哪里?它是否真如听起来那样神秘,甚至令人担忧? 


为了破解这一谜题,研究团队选择了 GPT、T5、Falcon 和 LLaMA 系列模型作为研究对象,通过实验分析了非指令微调模型(如 GPT)和指令微调模型(如 Flan-T5-large)在 22 个任务(17 个已知的涌现任务和 7 个基线任务)和不同条件下的表现。 


打脸“AI灭绝伦”,研究反驳:大模型涌现能力不会威胁人类生存


图|模型列表


为了全面评估模型能力,他们将 Exact Match Accuracy、BERTScore Accuracy 和 String Edit Distance 作为评估指标。同时,为了提高实验的准确性,他们还进行了偏见控制,通过调整提示和输出格式,确保非指令微调模型的公平性,并通过手动评估验证模型输出的准确性。 


在实验中,研究人员采用 zero-shot 和少样本(few-shot)两种设置,重点分析了 GPT 的表现能力。 


打脸“AI灭绝伦”,研究反驳:大模型涌现能力不会威胁人类生存


图|非指令微调 GPT 模型在零样本下的表现


令人惊讶的是,尽管 GPT 在之前的研究中被认为具有涌现能力,但在 zero-shot 的情况下,这种能力表现得非常有限。 


具体而言,只有两个任务在不依赖上下文学习(ICL)的情况下展示了涌现能力,这两个任务主要依赖形式语言能力或信息检索,而非复杂的推理能力。由此可以得出,在没有上下文学习的条件下,GPT 模型的涌现能力受到了极大的限制。 


然而,涌现能力的来源仅仅如此吗?研究团队又将目光转向了指令微调模型,提出了一个大胆的假设:指令微调并非简单的任务适应,而是通过隐式上下文学习,激发了模型的潜在能力。 


通过对比 GPT-J(非指令微调)与 Flan-T5-large(指令微调)的任务解决能力,他们发现,尽管两者在参数规模、模型架构和预训练数据上存在显著差异,但在某些任务上的表现却出奇地一致。 


打脸“AI灭绝伦”,研究反驳:大模型涌现能力不会威胁人类生存


图|两个模型的表现在高于随机基线部分有很大的重叠,这表明指令微调可以有效地获取上下文中的能力,而非导致功能性语言能力的涌现


这一现象表明,指令微调模型可能并不是在展示一种全新的推理能力,而是通过隐式上下文学习,巧妙地利用了已有的上下文学习能力。 


进一步的实验表明,无论是模型规模的增加,还是训练数据的丰富,指令微调模型在 zero-shot 的情况下,仍然能够与非指令微调模型表现出相似的任务解决能力。这一发现再次强调了指令微调与隐性上下文学习之间的紧密联系。 


02 AI 威胁人类生存:真实还是夸大?


尽管 LLM 在任务表现上展现出超凡的能力,但研究结果表明,这些能力并不意味着 AI 对人类生存构成实质性的威胁。 


首先,LLM 的涌现能力主要来源于上下文学习和指令微调,这些技术在模型的设计和训练中是可以被预测和控制的,并未表现出完全自主发展的趋势,也没有产生独立的意图或动机。 


例如,在社交智力测试(Social IQA)中,模型能够正确回答涉及情感和社会情境的问题,例如:“卡森醒来去上学时很兴奋。他为什么要这样做?” 


在这一问题中,模型通过上下文学习和指令微调,能够超越随机基线(random baseline),选择出合理的答案。这说明模型并非在自发产生某种“智能”,而是在具体输入和设计条件下展现出的一种高级模式识别能力。 


其次,研究发现随着 LLM 规模的扩大,这些能力表现得更加显著,但并未脱离设计者的控制。通过对模型的微调,可以引导 LLM 更好地理解和执行复杂任务,而这种能力的增强并不意味着模型会产生自主意识,还不足以对人类产生威胁。 


在实验中,LLM在特定任务上的表现大大优于随机基线,尤其是在需要推理和判断的任务中。然而,这种表现依然依赖于大量训练数据和精心设计的输入提示,而非模型自发的智能觉醒。 


这一结果进一步证实 LLM 的涌现能力是在可控范围内发展的,虽然这一假设仍需进一步的实验证实,但为研究理解大模型的涌现能力提供了一个全新的视角。 


研究指出,虽然未来人工智能可能会在功能性语言能力上进一步发展,但其潜在危险性依然是可控的。现有证据还不能支持“AI灭绝伦”的担忧,相反,AI 技术的发展正在逐步朝着更加安全和可控的方向前进。

 

03 不足与展望


尽管这项研究为理解 LLM 的涌现能力提供了重要的见解,但研究人员也指出了该研究的局限性。 


当前的实验主要集中在特定的任务和场景下,而 LLM 在更加复杂和多样化的情境中的表现尚需进一步研究。 


研究人员表示,模型的训练数据和规模仍然是影响涌现能力的关键因素,未来的研究还需进一步探索如何优化这些因素,从而提高模型的安全性和可控性。 


他们计划进一步研究 LLM 在更加广泛的语言和任务环境中的表现,特别是如何通过改进上下文学习和指令微调技术来增强模型能力,且确保安全性。 


此外,他们还将探讨如何在不增加模型规模的情况下,通过优化训练方法和数据选择,实现涌现能力的最大化。 



本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:学术头条



打脸“AI灭绝伦”,研究反驳:大模型涌现能力不会威胁人类生存

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner