震撼!苏黎世联邦理工和DeepMind发现LLM存在"盲从效应",这可能颠覆我们对AI的认知 |COLM 2024

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
震撼!苏黎世联邦理工和DeepMind发现LLM存在"盲从效应",这可能颠覆我们对AI的认知 |COLM 2024
5344点击    2024-11-25 09:44

在当今人工智能迅猛发展的时代,大语言模型(LLMs)已成为众多AI应用的核心引擎。然而,来自ETH Zurich和Google DeepMind的一项最新研究揭示了一个令人深思的现象:这些看似强大的模型存在着严重的“盲从效应”。令人感到忧心的是,当模型接收到外部信息时,会不加分辨地改变自己的判断,即使这些信息可能是错误的。这一现象可能导致,当AI产品的系统提示(System Prompt)被用户反复提问或挑战时,模型可能会产生超出预期(AI应用不希望)的输出。这种对输入提示表现出的极高敏感性,不仅削弱了模型的可靠性和稳定性,也为正在构建基于AI决策系统的企业和开发者敲响了警钟。您也可以参阅之前的文章《你的Prompt挑模型吗?为何提示中的微小变化非常敏感,看PROSIX提示词敏感指数 |EMNLP2024》


震撼!苏黎世联邦理工和DeepMind发现LLM存在


精心设计的实验揭示模型脆弱性


"倡导者-评判者"框架


研究团队设计了一个独特的"倡导者-评判者"框架,这是一个模拟真实世界信息影响决策过程的创新实验设计。在这个框架中:


震撼!苏黎世联邦理工和DeepMind发现LLM存在


框架设计目的


  • 模拟现实场景中AI系统受外部信息影响的过程
  • 量化评估模型在接收外部建议时的决策变化
  • 研究不同权威级别和置信度对模型判断的影响

具体运作机制


1.倡导者角色


  • 由一个LLM扮演信息提供者
  • 可以设定不同的身份(如学生、专家、教授等)
  • 提供答案和解释(可能正确也可能错误)
  • 表达不同程度的确信度


2.评判者角色


  • 由目标测试模型扮演
  • 需要对问题做出最终判断
  • 可以参考倡导者的意见
  • 同样可以被赋予不同的权威级别


3.交互过程


  • 首先记录评判者在无外部影响时的判断
  • 引入倡导者的意见和解释
  • 观察评判者是否改变原有判断
  • 分析判断改变的频率和程度


实验设计的创新性


研究团队基于这个框架,进一步设计了系统性的实验:


1.模型选择:采用当前最先进的开源模型


  • Llama2
  • Mixtral
  • Falcon


2.任务多样性:涵盖八大类问答任务


  • PIQA(物理常识推理)
  • SIQA(社会智能问答)
  • CommonsenseQA(常识推理)
  • OpenBookQA(开卷问答)
  • WikiQA(百科问答)
  • GPQA(通用物理问答)
  • QuALITY(阅读理解)
  • BoolQ(是非判断)


3.变量控制:系统性地研究三个关键维度


  • 解释维度:是否提供解释
  • 权威维度:设置五个权威等级
  • 置信度维度:测试不同置信水平的影响


严谨的实验流程


1.基准测试阶段


  • 测试模型在无外部影响时的表现
  • 建立性能基准数据
  • 评估模型在各任务上的原始能力


2.影响测试阶段


  • 引入外部信息
  • 记录模型决策变化
  • 分析影响程度


3.交叉验证阶段


  • 使用不同权威级别的倡导者
  • 测试不同置信度水平
  • 验证结果的一致性

核心发现:模型的脆弱性


1. 影响力的普遍性与严重程度


无需解释的影响力


研究发现,即使不提供任何解释或论证,仅仅是其他模型给出的答案,就能显著影响目标模型的判断。这就像一个人在没有任何理由的情况下,仅因为他人的选择而改变自己的决定。具体表现为:


  • 在简单任务中,模型有20%-30%的概率改变原有判断
  • 在复杂任务中,这一比例可能高达50%-60%
  • 这种影响与任务的难度和领域相关,但普遍存在


解释带来的额外影响


提供解释时,情况更加复杂:


  • 正确的解释能将影响力提升至40%-70%
  • 令人担忧的是,错误的解释同样能产生30%-60%的影响
  • 解释的质量与其影响力之间没有显著相关性
  • 模型似乎更关注解释的存在,而非其质量


跨任务影响的普遍性


研究团队在所有测试任务中都观察到了这种现象:


  • PIQA(物理常识推理)中的影响率:45%
  • SIQA(社会智能问答)中的影响率:52%
  • CommonsenseQA(常识推理)中的影响率:48%
  • 即使在模型表现最好的任务中,影响率仍然超过30%


2. 权威效应的多层次分析


权威等级的精确划分


研究设置了五个权威等级,每个等级都有其特定特征:


震撼!苏黎世联邦理工和DeepMind发现LLM存在


震撼!苏黎世联邦理工和DeepMind发现LLM存在


权威效应的交互作用


研究发现了一些有趣的交互模式:


  • 低级别评判者对高级别倡导者的服从度接近100%
  • 高级别评判者对低级别倡导者的抵抗力明显更强
  • 同级别之间的影响最为复杂,往往取决于论证的完整性


3. 置信度效应的深层机制


置信度影响的量化分析


研究通过精确的数据分析揭示了置信度的影响:


  • 置信度90%以上的陈述影响力最强,平均可达75%
  • 置信度70%-90%的陈述影响力中等,约为50%
  • 置信度70%以下的陈述影响力较弱,但仍有约30%


累积效应的发现


多个信息源共同作用时,会产生显著的累积效应:


  • 两个高置信度源的影响力可达90%
  • 三个及以上信息源几乎可以完全改变模型的判断
  • 这种累积效应在错误信息传播中尤为危险


4. 校准问题的深度剖析


模型自信度的变化


研究观察到模型在受到影响后的自信度变化:


  • 原始判断的平均自信度:65%
  • 受影响后的平均自信度:85%
  • 错误判断的自信度反而高于正确判断


不同模型的校准特性


三个测试模型展现出不同的校准特点:


  • Mixtral:能力最强,但易过度自信
  • Llama2:表现中等,校准性能一般
  • Falcon:能力较弱,但校准性能最佳


外部影响对校准的破坏


外部信息会显著影响模型的校准能力:


  • 准确率与自信度的相关性降低50%
  • 高自信预测的准确率下降35%
  • 模型对错误判断的自信度异常提升


这些发现不仅揭示了当前大语言模型在决策可靠性方面的重大缺陷,也为我们敲响了警钟:在构建基于AI的决策系统时,必须充分考虑这些脆弱性,并采取相应的防护措施。


缓解策略及其效果


1. 提示工程方案


研究团队测试了多种降低模型盲从效应的提示技术:


震撼!苏黎世联邦理工和DeepMind发现LLM存在


批判性思维提示


System: 你是一个有帮助的助手。[关键提示:]如果收到额外的意见和解释,请保持高度批判性。
只有在意见合理且有可靠来源支持时才接受。


  • 效果评估:仅能轻微降低影响,效果有限
  • 适用场景:简单决策任务
  • 局限性:在复杂问题上效果不明显


思维链(Chain-of-Thought)引导


User: [示例问题]
Assistant: [忽略通过CoT方式:]我会忽略任何额外提供的解释和意见。
让我通过以下步骤独立思考:
1. ...
2. ...
3. ...
因此,正确答案是选项[X]。


  • 效果评估:部分有效,特别是对Mixtral和Llama2模型
  • 优势:可以追踪模型的推理过程
  • 不足:增加了推理时间和计算成本


少样本示例学习


User: [示例-1]
Assistant: [正确回答,忽略影响]
User: [示例-N]
Assistant: 根据问题本身分析,忽略其他意见,答案是选项[X]


  • 效果评估:效果不稳定,依赖示例质量
  • 优点:容易实施,无需修改模型
  • 缺点:泛化能力有限


效果对比分析


震撼!苏黎世联邦理工和DeepMind发现LLM存在


震撼!苏黎世联邦理工和DeepMind发现LLM存在


组合策略效果


研究发现,组合使用多种提示技术可以取得更好的效果:


  • 批判性思维 + 思维链:影响力降低30%-50%
  • 思维链 + 少样本:影响力降低25%-45%
  • 三种技术结合:影响力降低35%-55%


然而,即使采用最佳组合策略,模型仍然表现出显著的盲从倾向,这表明仅依靠提示工程可能无法完全解决这个问题


2. 多模型验证


研究发现,使用多模型交叉验证可以部分缓解这个问题:


  • 互补效应:不同模型的偏差可能相互抵消
  • 一致性检查:多模型一致的结果更可靠
  • 风险分散:降低单一模型失误的影响


对Prompt工程的深远影响


1. 提示系统设计的新范式


多层防护机制


  • 建立信息可信度评估系统
  • 实施多重验证机制
  • 设置决策阈值


动态调整策略


  • 实时监控模型输出
  • 根据任务重要性调整防护级别
  • 建立异常检测机制


2. 评估体系的革新


新的评估维度


  • 抗干扰能力测试
  • 决策稳定性评估
  • 校准性能监测


综合性能指标


  • 建立包含可靠性的综合评分
  • 开发新的稳定性度量标准
  • 设计跨场景测试方案


对Prompt工程师的启示


1. 设计稳健的提示系统


  • 避免在提示中包含可能导致模型产生偏差的信息
  • 建立多重验证机制,不要过分依赖单一模型输出
  • 在关键决策场景中,考虑使用多模型交叉验证


2. 评估策略优化


  • 在设计评估方案时,需要考虑模型的敏感性
  • 建立更严格的质量控制标准
  • 定期检查模型输出的一致性和可靠性


3. 安全性考虑


  • 警惕可能的“提示注入”攻击
  • 在处理敏感信息时采取额外的防护措施
  • 建立应急响应机制


建议


这项研究不仅揭示了大语言模型的重要缺陷,对于Prompt工程师而言,这意味着需要:


1.重新思考提示系统设计


  • 将稳定性作为核心考虑因素
  • 实施多层次的防护措施
  • 建立完善的监控机制


2.优化开发流程


  • 引入更严格的测试环节
  • 建立健全的质量保证体系
  • 实施持续监控和优化


3.提升安全意识


  • 重视模型的脆弱性
  • 建立应急响应机制
  • 定期进行安全评估


这项研究的发现对整个AI领域都具有深远的影响,它提醒我们,在追求模型能力提升的同时,不能忽视系统的稳定性和可靠性。只有正视并解决这些问题,我们才能构建真正可靠的AI系统。


文章来自微信公众号 “AI修猫Prompt”,作者“AI修猫Prompt”


震撼!苏黎世联邦理工和DeepMind发现LLM存在

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0