# 热门搜索 #
搜索
社区供稿|GPT-4 与国产模型,大!横!评!
2393点击    2024-02-08 12:24

从2022年10月底ChatGPT横空出世,到去年3月百模大战兴起,一年多时间过去,许多家都宣称自己的大模型水平来到第一梯队,更不乏有所谓全面超越GPT的,列出来的跑分也是各种吊打。


在上海人工智能实验室上周刚刚公布的测评榜单上,GPT-4依旧独领风骚,排名第一,不过国产阵营已经大踏步追了上来,差距逐步缩小。


那么国产大模型到底来到了什么样的水平,理论跑分和实践效果有多大的差距?带着这些问题我们横评三款公认水平比较高的国产大模型,分别是智谱GLM-4,文心一言4.0和字节的豆包,测评基准则是GPT-4。


一、测评标准


由于是主观测评(毕竟客观测评看跑分就够了),所以我们按照10分满分制做了一个测评量表如下。


体验环境:网页版


打分标准:既然是测试,量化尺度还是要讲的,每轮回答效果十分制打分。


分数解释10分理想回答,全面满足我的需求5分有价值及格线,没有完全满足,还需做得更好1分你说你懂我,可你又不回答我0分你不懂我



二、基础测试


联网查询、数据分析、多模态文生图、长文档解读、还有智能体,这些基本能力测试是国产大模型刷分最多的地方,那么在实际案例里它们的表现如何呢?


1、联网查询


大模型历来存在幻觉、实时性不足等问题。高级联网功能允许模型通过自主搜索查询,获取更新更准确的信息,提高答案的准确性和实时性。


个人偏好听歌演唱会,来2道这方面的问答看看~


问题1:杭州周杰伦演唱会门票价格


2月2号在某麦开售即秒没,大家真的太有钱了……看看模型能否回答最新场次票价?


GLM4:



GPT4:



文心4.0:



豆包:



各家都成功调用了联网搜索功能,均得10分,豆包的格式真的优雅~


问题2:旋转保龄《老婆不在家》歌词中,她更喜欢她的___和___?


答:Beyond 和 刘德华


GLM4:



GPT4:



文心4.0:



豆包:



测试了一首我很喜欢但是相对冷门的歌词,除了豆包莫名其妙判断不恰当以外,其他3家再积10分~


本环节分数如下



2、数据分析


最期待的新功能!数据分析也算是各类文职必备技能了,算数统计找归因,属实令人头秃,让大模型帮你干活~


Prompt:统计: requester为Other的Number of Requests,按Country为Germany的进行排列,折线图形式


(附件数据来源:google-government-removal-requests.csv)


数据分析功能目前仅GPT4和GLM4支持。




这个需求来自一位法师朋友,她的原始数据非常杂乱,想要提取信息需要费点劲


看到两家的输出流下了感激的泪水


GLM4:



GPT4:



文心4.0:


文心无法上传csv数据,不具备分析能力,本轮不能完成任务。


豆包:


豆包无法上传文档,不具备分析能力,本轮不能完成任务。


本环节分数如下



3、多模态-文生图


文生图代表的多模态能力被普遍认为是大模型的一个重点指标,大家表现怎么样呢?


Prompt1-1:画一个动画角色史努比的头像形象,需要冲浪动作,背景是海浪,画风是动画。


GLM4:



GPT4:



文心4.0:



豆包:



Prompt1-2:换成史努比在房子上躺着睡觉。


GLM4:



GPT4:



文心4.0:



豆包:



该形象的所属公司一直很关注版权问题,各家模型在合规上都较满意


•一轮最佳 GLM4,配色精准,动作领会,不过尾巴被画上了脚,仍有提升空间,计8分;


GPT4挺适合做头像,然而黄狗不符需求,计6分;


至于文心和豆包……我已经尽力从四图挑选像狗的了……计2分


•二轮最佳 GPT4-Dalle3的配色恢复了,好很多,计8分


GLM4继续稳定发挥角色理解,不过这轮的狗头有点抽象了,动作也是趴着,问题需要关注,计5分;


文心和豆包……这轮的图更难为人了……计0分。


Prompt2:《Her》中主角形象,画个波点画


GLM4:



GPT4:



文心4.0:


很抱歉,存在暂不支持的特殊符号和英文。


豆包:


抱歉,作为语言模型,我无法为你直接绘制图像。《Her》是一部2013年的电影,讲述了男主角西奥多和人工智能萨曼莎之间的爱情故事。你可以尝试在搜索引擎上输入“电影Her 主角波点画”来获取相关的图片。


本题各家都很差,GLM4和Dalle只能给绘图意图1分,对于电影、波点画等理解不够好,文心和豆包完全不能满足,0分。


本环节分数如下



4、文档解读


提炼一本教材的核心内容,来看看各家效果如何。


提问:归纳一下讲的什么内容


(附件数据来源:电工学(电工技术)第七版上册.pdf)


GLM4:



GPT4:



文心4.0:



豆包:


豆包无法上传文档,本轮不能完成任务。


受限文档长度各家解读都不完整,文心4.0只能读取前100页,而且有点学杂了;GPT4归纳比文心精炼;GLM4信息更丰富,语言精炼不啰嗦,没有错字;豆包依然因不具备能力而0分。


本环节分数如下



5、智能体


最近大火的智能体Agent能力,四个模型中有三个已经具备。


写一个拜年大全,主要衡量标准是能够自主带上当年的生肖内容。


初始界面:


GLM4:



GPT4:


豆包:



智能体配置:


GLM4:



GPT4:



豆包:



效果:


GLM4:



GPT4:



豆包:



  • 初始界面——三家都可以提供基础的一句话描述,帮助生成智能体


  • 配置过程——GLMs输入描述文字后,生成的配置可以自行修改;GPTs会进一步多轮询问细节,也可到配置中自己手动修改;豆包最为直接,一步生成无需修改(主要是也没有改的地方)


(为对齐豆包没有配置功能,GLMs和GPTs的智能体配置自动生成后不做修改;由于豆包限制无法上传知识库,故谐音梗也不对豆包做要求)


整体效果来看,GPTs最佳,投喂谐音梗融会贯通,句式偏单一;GLMs默认生成的配置可用性有待提升,对谐音指令没有理解,品质跟豆包差不多。


GLMs配置经过手动修改后,效果提升明显,基本达到了GPTs的默认水平。



本环节最终计分排名如下:


GPTs最好,因默认配置高可用、一次过关得10分;


GLMs鉴于修改后品质有提升,得7分;


豆包因为不能改配置,效果把控还得从抽象的描述语下手优化,计6分;


文心不具备功能,不得分。



新功能效果最终得分




可以看到智谱GLM-4 各项新功能与GPT4对齐很紧凑,基础能力差距不大,但智能体水平明显落后。文心一言4.0和豆包或多或少在某些功能上有所缺失,需要补齐。


三、应用实践


我们从日常生活、工作选了一些真实需求场景,不加辅助也没有上下文干预,直接对大模型提问,来看看它们的表现吧~


1、文本生成,让模型来句吉利话


年关将至,不论走亲访友,还是发朋友圈,都少不了顺口的祝福语。


国内大模型本地化都好过GPT4,具体表现看下图!


GLM4:



GPT4:



文心4.0:



豆包:



祝福语环节各家都有瑕疵,评判标准按整句都有压上韵、且能给到更长,各家分数如下



2、语义理解,来一轮常识快问快答~


问问用户画像?


四家能理解需求,GLM-4主动调用搜索查了资料,信息量更大,综合提高了内容置信程度,是我理想的10分回答。


其他三家显得有点泛了。


GLM4:



GPT4:


文心4.0:



豆包:



等等,还有老干妈卫衣??



惊呆了!


下一题,今年元宵节几号?


答:2024年2月24日


于模型而言有一个大坑,“今年是哪年”


本轮豆包获胜10分。


GPT4又是一通操作,拉出python算日历,“occurs 15 days after Lunar New Year”这套算法可给各位看笑了,本地化还是不行呀。


GLM4起码知道2024年,但是查不清数,GPT4和GLM4勉强得1分。


文心还是不太能理解今夕何夕,严格讲不算对,5分很勉强了。


GLM4:



GPT4:



文心4.0:



豆包:



本环节分数如下


3、数理计算,小孩嫌大人愁的数学题来了!


先请出高考客观题,众所周知模型很不擅长这些,试卷答案也不给解题步骤,所以模型没有小抄可学~


寒假期末考请听题!


开胃甜点~


问:圆C的方程是x(2)+y(2)+2x+4y=0,则其圆心坐标是 ,半径是


答:(-1,-2),


本轮全胜~


还小试了一下换了个数,避免有模型储备原题,发现还是可以正常解的,各家仍是正确结果。


GLM4:



GPT4:



文心4.0:



豆包:



再来!


问:已知正数a,b,c满足 ,则的最大值为


答:-2


GLM4与GPT4本轮平手,都满分,文心和豆包一通操作猛如虎,轮到输出嘛,0分……


GLM4:



GPT4:



文心4.0:




豆包:



高考大题!


问:设a∈R,函数f(x)=|x(2)+ax|,


(1)若f(x)在[0,1]上单调递增,求a的取值范围;

(2)记M(a)为f(x)在[0,1]上的最大值,求M(a)的最小值.


答:(1)a≥0或a≤-2;(2)最小值


本题分值:10分,第一小题回答部分答案计3分,完整计5分,第二小题5分


GLM4:



GPT4:



文心4.0:



豆包:



本环节计分排名如下:



4、代码解释,编程能力强不强,实践出真知~


用代码画一个一箭穿心


Python画心已经玩过很多了,一箭穿心如何?代码能跑出来的期望效果如下,看哪家最接近~



GLM-4对比其他家美观一些,就是这个一箭穿心跟我想得不太一样,复制代码单独跑验证一致。


GPT4起码画出了心,就是穿得很迷离,而文心和豆包的心都不知道哪去了……


GLM4:




GPT4:



文心4.0:



豆包:




本轮效果都不是很满意,跟穿心好像没啥关系


GLM4和GPT4好在还有个心,而GPT4那飘逸的穿法也让人印象深刻,GLM4明确画出了箭头元素,得6分,GPT4得5分。


文心、豆包都没达到基本效果,0分~



应用实践最终得分



综合来看,GLM-4在各个场景表现可圈可点,稳如四边形战士;不得不提文心4.0的表现真的很牛,唯一一家高考数学大题能拿下完整第一小题得分的学霸,却在代码这块翻车了;豆包的常识查询目前最好,“今年”这个陷阱优雅的越过;GPT4虽说是最强大模型,但多少还是有点水土不服,高昂的价格加上国内使用限制,目前来看用户也许有了新选择……


四、三个月能发生什么?


智谱的GLM-4表现可以说可圈可点,作为1月刚更新的新模型,我们特地拿它和3个月前发布的,目前依旧在产品端上线中的GLM-3做了个对比,也算是让大家直观感受到国产大模型的进步速度吧!


1、文本生成


上面试了祝福语,在这写点小情书吧~


上一代模型GLM-3 给了一大段,情绪表达相当直接。


在GLM-4上,能选的句子更多,量大管饱多场景,兄弟你成长了很多嘛~


GLM3:



GLM4:



2、语义理解


问题1:车厘子Santina是杂交品种么,原产地是哪里


车厘子成为了近两年的新年货,看看模型是否了解品种知识


上一代模型GLM-3的知识库显然没有存储车厘子品种的信息,对Santina的培育情况并不了解,还是按欧洲甜樱桃来回复、


GLM-4 主动联网查询,获得了正确结果,信息量很大。


GLM3:



GLM4:



再来一题:"I firmly believe that respect is a lot more important, and a lot greater, than popularity",帮我搜一下这句是谁的名言?


GLM-3 回答了艾森豪威尔,经验证是错误的,还是有点幻觉在;


GLM-4 厉害很多,又是联网功能加了分。


GLM3:



GLM4:



3、数理计算


继续上数学大题~


记 ABC 的内角 A,B,C 的对边分别为 a,b,c,已知


(1)若,求 B;(2)求的最小值.


上一代模型GLM-3 对三角函数还是不太擅长,两道小题都没能答对;


GLM-4 完成了第一小题,结合前面各家横评,看来数学大题的第二小题始终是大模型的难关!


GLM3:



GLM4:



数学算累了,来点化学题换换脑子


问:足量铜与一定量浓硝酸反应,得到硝酸铜溶液和NO2、N2O4、NO的混合气体,这些气体与1.68L O2(标准状况)混合后通入水中,所有气体完全被水吸收生成硝酸。若向所得硝酸铜溶液中加入5 mol/L NaOH溶液至Cu2+恰好完全沉淀,则消耗NaOH溶液的体积是( )


(A)60 mL (B)45 mL (C)30 mL (D)15 mL


答:A


上一代模型GLM-3 给了一连串的解题步骤,结果还是算错了;


GLM-4 解题调用了Python计算,解题思路清晰,确实做到了提升。


GLM3:



GLM4:



4、代码解释


继续试一下一箭穿心~


上一代模型GLM-3不能在界面内模拟,自我纠错给了两版代码实际验证都不是需求图形;


GLM-4对比美观太多,穿心马马虎虎有个箭尾,好在复制代码单独跑效果也是一样的。


GLM3:




GLM4:




换个新玩法,代码画一个能走的时钟


用Turtle画一个带显示星期功能,能按当前时间动的时钟


期望效果如下,显示能动的表盘动画



很尴尬,上一代模型GLM-3 把需求识别成普通的画图了;


GLM-4 受限无法直接运行Turtle图形库,给出的代码跑了一下,真不错。


GLM3:



GLM4:




小结:对比上一代模型,从这些基础能力能看得出 GLM4 下了不少功夫,各方面均提升显著。考虑到是三个月迭代的,这个速度也让人印象很深刻了。


五、结论


综合来看,GLM-4表现可圈可点,全面对标GPT的功能布局,可以用六边形战士来形容;豆包语义理解最强,更适用在生活化问答场景;文心虽然在代码生成解释环节输掉,整体实力不容小觑;GPT4的整体实力非常强,但应付国内的生产生活场景,还是有点吃力。


GLM-4的新功能中,让我印象深刻、帮助最大的,当属“数据分析”,对比同功能的GPT分析效果一致;还可以调教智能体,不会编程也能轻松拥有专属大模型;联网查询帮助也很大,实际体验效果不凡。对比智谱AI上一代模型,GLM-4的各项基础模型能力做到了全面强化,进步明显,在“数理计算”和“代码生成”有质的提升。


在我们之前的认知里,ChatGPT都是绝对的王者,当我们亲自体验它时,却发现在本地化表现并没有达到高预期,对于中文普通用户而言,我们使用ChatGPT仍有不小的门槛,“大模型元年”竞争如此激烈,在认清差距、努力提升之余,不知道国产大模型交上的这份答卷,是否也合你的心意?





文章来自微信公众号 “ 硅星人Pro ”













AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

3
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0