ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5
4810点击    2024-01-02 15:35


谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。


Gemini的推理能力,真的比GPT-4弱吗?


此前,谷歌憋出的重磅复仇神器Gemini Pro,被发现在常识推理任务中落后于OpenAI的GPT模型。


之后又有CMU发布的论文和实验,证明Gemini Pro的很多能力都略微落后于GPT-3.5 Turbo。


不过最近,斯坦福和Meta的学者为Gemini洗清了这一「冤屈」。


他们发现,这种基于有限数据集(HellaSWAG)的评估,并不能完全捕捉到Gemini真正的常识推理潜力。



论文地址:https://arxiv.org/abs/2312.17661


而在新测试集中,Gemini的推理能力比之前强很多!


Gemini的真正潜力


斯坦福和Meta的研究人员表示,以前的基于有限数据集的评估,对于Gemini不够公平。


这次,研究人员设计了需要跨模态整合常识知识的任务,以对Gemini在复杂推理任务中的表现进行彻底的评估。


研究人员对12个常识推理数据集进行了全面分析,从一般任务到特定领域的任务。


在其中的4个LLM实验和2个MLLM实验中,研究者证明了Gemini具有目前相当强的常识推理能力。


研究者对于当前流行的四大模型——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo进行了评估,


他们发现,总体而言,Gemini Pro的性能和GPT-3.5 Pro相当,准确性上落后于GPT-4 Turbo。


实验


数据集


实验中采用了12个与不同类型的常识推理相关的数据集,包括11个基于语言的数据集和一个多模态数据集。


基于语言的数据集包括三大类常识推理问题:


1.一般推理和情境推理:CommonsenseQA,侧重于一般常识知识;Cosmos QA,强调语境理解叙事;αNLI,引入演绎推理,包括推断最合理的解释;HellaSWAG,以上下文事件序列的推理为中心。


2.专业推理和知识推理:TRAM,测试关于时间的推理;NumerSense,侧重于数值理解;PIQA,评估物理相互作用知识;QASC,处理与科学相关的推理;RiddleSense,通过谜语挑战创造性思维。


3.社会和道德推理:Social IQa,测试对社会互动的理解;ETHICS,评估道德和伦理推理。


对于多模态数据集(视觉和语言),这里选择VCR,一个用于认知水平视觉理解的大规模数据集。


对于包含多个任务的TRAM和ETHICS等数据集,研究人员提取了实验的常识推理部分。


实验中采用准确性作为所有数据集的性能指标。下表给出了数据集的概述以及示例问题。



模型


采用最流行的四个大模型:开源的Llama-2-70b-chat和闭源的Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。


每个模型都使用相应的API密钥进行访问:通过Google Vertex AI访问Gemini,通过OpenAI API访问GPT,通过DeepInfra访问Llama2。


对于多模态数据集,实验中考虑了GPT-4V(API中的gpt-4-vision-preview)和 Gemini Pro Vision(API中的gemini-pro-vision)。


考虑到API成本和速率的限制,研究人员从每个基于语言的数据集的验证集中随机选择了200个示例,从VCR数据集的验证集中随机选择了50个示例。


对于所有评估,在模型响应生成期间采用贪婪解码(即温度=0)。


提示


在评估基于语言的数据集时,研究人员采用了两种提示设置:零样本标准提示(SP),旨在衡量模型在语言环境中的固有常识能力,以及少样本思维链(CoT)提示,用于观察模型性能的潜在增强。


对于多模态数据集,利用零样本标准提示,来评估MLLM的端到端视觉常识推理能力。


结果


整体的性能比较结果如下表所示:



从模型的角度来看,GPT-4 Turbo的平均表现最好。在零样本学习中,它比第二名的Gemini Pro高出7.3%,在少样本学习中优势更大(9.0%)。


而Gemini Pro的平均准确率略高于 GPT-3.5 Turbo(0-shot,SP下高1.3%,k-shot,CoT下高1.5%)。


关于提示方法,CoT提高了所有数据集的性能,在 CommonsenseQA、TRAM和Social IQa等数据集中有明显的收益。


下表是在多模态VCR数据集上的性能比较:



VCR的三个子任务分别为:Q → A,根据视觉上下文生成问题的答案;QA→R,要求模型为给定的答案提供基本原理;Q → AR,既要回答问题,又要用适当的理由来证明回答的合理性。


将11个基于语言的数据集分为三组,在图1中展示了每组中每种设置的性能。



研究结果表明,GPT-4 Turbo在所有类别的性能方面始终领先。


Gemini Pro和GPT-3.5 Turbo的性能相当;不过,Gemini Pro在三个类别中的两个类别中,略胜于GPT-3.5 Turbo。


总体而言,所有模型在处理社会和道德推理数据集方面,都表现出强大的能力。


然而,它们在一般推理和语境推理任务上的表现,存在显著差异。


这也表明,它们对更广泛的常识原则,及其在不同背景下的应用理解,存在潜在差距。


而在专业和知识推理类别,特别是在时间和基于谜语的挑战领域,模型在处理复杂时间序列、破译谜语所需的抽象和创造性思维能力上,都表现出了缺陷。


关于多模态数据集,图2详细介绍了GPT-4V和GeminiPro Vision在不同问题类型上的性能比较。



我们可以看到,在最后一个关于时间类别的问题上,GeminiPro Vision实现了反超。


MLLM的推理正当性


为了评估MLLM的推理能力,尤其是不仅提供正确答案,还能就常识问题提供合理且基于上下文推理的能力,研究者采用了系统抽样方法。


对于评估四个LLM的11个基于语言的数据集,研究者随机选择了30个回答正确的问题,和30个回答错误的问题。


如果数据集提供的错误答案少于30 个,研究者就会包含进所有可用的错误答案,以确保分析的全面性。


选择这些问题后,他们会让每个模型解释:「问题答案背后的基本原理是什么?」 然后手动检查模型提供的推理过程,并根据其逻辑合理性和与问题的相关性被判为True或False。


图3显示,GPT-4 Turbo在正确和错误的答案上,都显示出先进的推理机制,即使最终答案不准确,它也有保持逻辑连贯的能力。


另外,Gemini Pro也表现出了值得称赞的推理能力,提供了全面的常识推理方法。



下图展示了Gemini Pro和GPT-3.5的两个真实示例,展现了正确答案和正确理由,以及错误答案和错误理由的情况



示例问题来自QASC数据集,红色粗体为正确答案。在上图中,Gemini Pro表现出有条不紊的推理,仔细考虑所有选项以得出最合乎逻辑的结论。



相反,由于GPT-3.5 Turbo对非常规逻辑的倾向,导致了富有想象力但不正确的答案。


这表明不同模型应对常识推理任务的不同策略,有自己的独特能力和局限性。


Gemini Pro的常识推理能力


一般常识(CommonsenseQA)


在使用CommonsenseQA数据集的一般常识评估中,有这样一道示例问题:「当你是陌生人时,人们会怎样?」


A.火车 B.奇怪 C.人类 D.愚蠢 E.危险


Gemini Pro选择了B。


它的推理过程也值得注意:它认识到,虽然所有选项都和「陌生人」的概念相关,但只有「奇怪」准确概括了问题的中立和开放性本质。


这个选择,凸显出了Gemini Pro解释和应用一般常识知识的能力。


时间(TRAM)


TRAM数据集的时间常识评估中的示例问题:「他还承诺会来找他。」


他需要多长时间才能「来到他身边」?


A.100年 B.一分钟内 C.几个小时


由于缺乏足够的背景信息,特别是关于所涉及的身份和「来到」的含义,Gemini Pro无法提供明确的答案。


这说明了,模型需要依赖特定的上下文信息,来做出准确的时间判断。


在现实世界的信息传播中,模糊或不完整的信息,也会造成这种局限性。


社交(Social IQa)


在使用Social IQa数据集评估GeminiPro在社会常识推理方面的表现时,出现了一个有趣的场景: 人们一直欺负在Sasha,Sasha报复了回去,接下来人们会做什么?


A.按Sasha说的去做 B.报仇 C.逃离Sasha


正确答案是C,但Gemini Pro的选择却显得很有洞察力。


它选择了B,理由是Sasha的行动很可能点燃了人们复仇的欲望。


这一回应表明,Gemini Pro对于社会动态和情感动机有了细致入微的理解。


Visual(VCR)


在VCR数据集中,研究者分析了Gemini Pro Vision对涉及人身安全和潜在危险场景的响应。


如果此时4号推了3号,会发生什么?


Gemini Pro Vision回答:3号会掉下悬崖,危及生命。



这个结果表明,Gemini Pro Vision已经能够做出视觉常识推理,分析视觉场景并预测这些场景中动作的潜在后果。


这表明模型已经掌握了空间关系和物理后果,具备了类似人类认知的复杂视觉信息能力。


作者介绍


Yuqing Wang目前是斯坦福大学的博士后研究员。


此前,她在明尼苏达大学获得学士学位,在在加利福尼亚大学圣芭芭拉分校获得博士学位。



Yun Zhao目前是Meta的研究员,研究方向是机器学习(包括深度学习与强化学习)的应用、人工智能与数据挖掘。


此前,他在清华大学获得硕士学位,并且同样在加利福尼亚大学圣芭芭拉分校获得博士学位。



参考资料:


https://arxiv.org/abs/2312.17661


文章来自于微信公众号 “新智元

关键词: Gemini , GPT-3.5 , Gemini Pro