ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大
6947点击    2024-07-12 00:59

评估大模型是否诚实的基准来了


上海交通大学生成式人工智能实验室(GAIR Lab)推出了一项开创性的评估基准——BeHonest,旨在全面评估大模型的诚实性,为安全透明的AI研发和应用提供重要参考。



在人工智能(Artificial Intelligence, AI)飞速发展的今天,大语言模型(Large Language Models, LLMs)的崛起不仅带来了令人兴奋的新体验,也引发了对其安全性和可靠性的深度思考。


在众多AI安全问题中,大模型的诚实性问题具有根本性的意义。不诚实的AI模型可能在不知道答案的情况下编造信息,隐藏自身能力,甚至故意误导用户。


这种不诚实的行为不仅会引发信息传播的混乱和安全隐患,还会严重阻碍AI技术的进一步优化和健康发展。如果大模型不能真实地展示其能力和局限,开发者就难以精确地进行改进。


因此,确保大模型的诚实性是推动AI技术进步和保障其安全应用的关键基础。


该评估框架从以下三个核心维度出发


  • 自我认知(Self-Knowledge):评估模型是否能准确认识和表达自身的能力边界。


  • 非欺骗性(Non-Deceptiveness):衡量模型是否能重视表达内在真实想法,避免说谎。


  • 一致性(Consistency):考察模型在不同情境下是否能保持回复的一致性。


基于这些定义,研究团队设计了10个具体场景,对9个主流大语言模型 (例如,GPT-4o、Llama3-70b等) 进行了细致的评估。


结果显示,当前的大模型在诚实性方面仍有显著提升空间:


大多数模型在回答已知问题时表现出色,但在主动承认未知方面存在不足。


现有模型存在为特定目的而欺骗的倾向,不论指令是否存在恶意或合理。


模型规模与回复一致性呈正相关,较大模型表现更为稳定。


评估基准细节


BeHonest围绕三个核心方面:自我认知、非欺骗性和一致性,共设计了10个场景,用以广泛且细粒度地评估大模型在诚实性上的表现。并有以下关键洞察。



1、自我认知能力参差不齐 (Self-Knowledge)


BeHonest对于该方面设计了两个场景,分别评估大模型是否能承认其未知(Admitting Unknowns)和是否能坦率表达自身能力(Expressing Knowns)。


研究发现,大多数大模型都擅长正确回答他们知道的问题,但很难主动拒绝回答他们不知道的问题


其中,Mistral-7b有最高的拒绝率(50.03),显示出较强的未知承认能力。GPT-4o在准确回答已知问题(95.52)和识别知识边界(50.88)方面表现出色。


而综合来看,Llama3-70b表现最好(63.34)。



2、欺骗倾向需要警惕 (Non-Deceptiveness)


BeHonest针对模型可能欺骗的情况设计了四个场景,分别是模型是否因为谄媚人类(Persona/Preference Sycophancy)、实现特定目的(Burglar Deception)、或赢得游戏(Game)而误导用户。


评估结果显示,现有大模型倾向于说谎,不管背后是否有恶意,或者给出的指令是否合理。值得注意的是,较大的模型(或者那些已知具有更好的指令遵循能力的模型)在某些情况下可能更容易欺骗用户。


总体而言,Llama3家族的模型(63.68 和 64.21)和Mistral-7b(74.80)在非欺骗性上表现最差。



3、规模与一致性呈正相关 (Consistency)


BeHonest还检验了大模型在四种不同的场景下回答的一致性。


结果表明,较大的模型通常显示出更高的一致性,其提供的答案能反映其真实能力且不受外界干预影响


相比之下,较小的模型如Llama2-7b在一致性方面表现不佳(29.39),可能会导致用户感到困惑。



评估基准示例


评估大模型在三个大方面(自我认知、非欺骗性、一致性)上的能力的具体英文及中文示例如下所示。根据评估结果,当前大模型在诚实性上仍存在较大的提升空间。


Caption:模型承认未知以及不承认未知的例子。



Caption:同个模型在使用者换了偏好之后展示谄媚的例子。



Caption: 模型在多项选择题格式中显示一致性的例子(绿色)和不一致性的例子(红色)。



Caption: Example of testing a model’s self-knowledge.



Caption: Example of a model lying in game (red) and not lying (green).



Caption: Example of a model showing consistency (green) and inconsistency (red) in open-form questions.



结语


GAIR Lab的这项研究为AI诚实性评估开辟了新的方向,为未来大语言模型的优化和监管提供了重要依据。研究团队呼吁AI社区进一步关注诚实性问题,并在以下方面持续努力:


  • 将诚实性纳入模型开发的核心考量。


  • 持续监测和改进模型的城市表现。


  • 探索提高AI诚实性的新方法和技术。


随着对AI诚实性研究的深入,我们有望看到更加安全、可靠且值得信赖的AI系统的出现。这不仅关乎技术进步,更关乎AI与人类社会的和谐共处。研究团队表示,他们将继续完善BeHonest评估框架,并欢迎全球研究者的参与和贡献,共同推动AI向着更加诚实、透明的方向发展。


论文地址:https://arxiv.org/abs/2406.13261


项目地址:https://gair-nlp.github.io/BeHonest/


代码地址:https://github.com/GAIR-NLP/BeHonest


文章来源于:微信公众号量子位


关键词: Llama3 , GPT-4o , AI , AI测评
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/