社区供稿｜GPT-4 与国产模型，大！横！评！

4891点击 2024-02-08 12:24

从2022年10月底ChatGPT横空出世，到去年3月百模大战兴起，一年多时间过去，许多家都宣称自己的大模型水平来到第一梯队，更不乏有所谓全面超越GPT的，列出来的跑分也是各种吊打。

在上海人工智能实验室上周刚刚公布的测评榜单上，GPT-4依旧独领风骚，排名第一，不过国产阵营已经大踏步追了上来，差距逐步缩小。

那么国产大模型到底来到了什么样的水平，理论跑分和实践效果有多大的差距？带着这些问题我们横评三款公认水平比较高的国产大模型，分别是智谱GLM-4，文心一言4.0和字节的豆包，测评基准则是GPT-4。

一、测评标准

由于是主观测评（毕竟客观测评看跑分就够了），所以我们按照10分满分制做了一个测评量表如下。

体验环境：网页版

打分标准：既然是测试，量化尺度还是要讲的，每轮回答效果十分制打分。

分数解释10分理想回答，全面满足我的需求5分有价值及格线，没有完全满足，还需做得更好1分你说你懂我，可你又不回答我0分你不懂我

社区供稿｜GPT-4 与国产模型，大！横！评！

二、基础测试

联网查询、数据分析、多模态文生图、长文档解读、还有智能体，这些基本能力测试是国产大模型刷分最多的地方，那么在实际案例里它们的表现如何呢？

1、联网查询

大模型历来存在幻觉、实时性不足等问题。高级联网功能允许模型通过自主搜索查询，获取更新更准确的信息，提高答案的准确性和实时性。

个人偏好听歌演唱会，来2道这方面的问答看看~

问题1：杭州周杰伦演唱会门票价格

2月2号在某麦开售即秒没，大家真的太有钱了……看看模型能否回答最新场次票价？

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

各家都成功调用了联网搜索功能，均得10分，豆包的格式真的优雅~

问题2：旋转保龄《老婆不在家》歌词中，她更喜欢她的___和___？

答：Beyond 和刘德华

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4:

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

测试了一首我很喜欢但是相对冷门的歌词，除了豆包莫名其妙判断不恰当以外，其他3家再积10分~

本环节分数如下

社区供稿｜GPT-4 与国产模型，大！横！评！

2、数据分析

最期待的新功能！数据分析也算是各类文职必备技能了，算数统计找归因，属实令人头秃，让大模型帮你干活~

Prompt：统计: requester为Other的Number of Requests，按Country为Germany的进行排列，折线图形式

（附件数据来源：google-government-removal-requests.csv）

数据分析功能目前仅GPT4和GLM4支持。

社区供稿｜GPT-4 与国产模型，大！横！评！

这个需求来自一位法师朋友，她的原始数据非常杂乱，想要提取信息需要费点劲

看到两家的输出流下了感激的泪水

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

文心无法上传csv数据，不具备分析能力，本轮不能完成任务。

豆包：

豆包无法上传文档，不具备分析能力，本轮不能完成任务。

本环节分数如下

社区供稿｜GPT-4 与国产模型，大！横！评！

3、多模态-文生图

文生图代表的多模态能力被普遍认为是大模型的一个重点指标，大家表现怎么样呢？

Prompt1-1：画一个动画角色史努比的头像形象，需要冲浪动作，背景是海浪，画风是动画。

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

Prompt1-2：换成史努比在房子上躺着睡觉。

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

该形象的所属公司一直很关注版权问题，各家模型在合规上都较满意

•一轮最佳 GLM4，配色精准，动作领会，不过尾巴被画上了脚，仍有提升空间，计8分；

GPT4挺适合做头像，然而黄狗不符需求，计6分；

至于文心和豆包……我已经尽力从四图挑选像狗的了……计2分

•二轮最佳 GPT4-Dalle3的配色恢复了，好很多，计8分

GLM4继续稳定发挥角色理解，不过这轮的狗头有点抽象了，动作也是趴着，问题需要关注，计5分；

文心和豆包……这轮的图更难为人了……计0分。

Prompt2：《Her》中主角形象，画个波点画

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

很抱歉，存在暂不支持的特殊符号和英文。

豆包：

抱歉，作为语言模型，我无法为你直接绘制图像。《Her》是一部2013年的电影，讲述了男主角西奥多和人工智能萨曼莎之间的爱情故事。你可以尝试在搜索引擎上输入“电影Her 主角波点画”来获取相关的图片。

本题各家都很差，GLM4和Dalle只能给绘图意图1分，对于电影、波点画等理解不够好，文心和豆包完全不能满足，0分。

本环节分数如下

社区供稿｜GPT-4 与国产模型，大！横！评！

4、文档解读

提炼一本教材的核心内容，来看看各家效果如何。

提问：归纳一下讲的什么内容

（附件数据来源：电工学（电工技术）第七版上册.pdf）

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

豆包无法上传文档，本轮不能完成任务。

受限文档长度各家解读都不完整，文心4.0只能读取前100页，而且有点学杂了；GPT4归纳比文心精炼；GLM4信息更丰富，语言精炼不啰嗦，没有错字；豆包依然因不具备能力而0分。

本环节分数如下

社区供稿｜GPT-4 与国产模型，大！横！评！

5、智能体

最近大火的智能体Agent能力，四个模型中有三个已经具备。

写一个拜年大全，主要衡量标准是能够自主带上当年的生肖内容。

初始界面：

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

智能体配置：

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

效果：

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

初始界面——三家都可以提供基础的一句话描述，帮助生成智能体

配置过程——GLMs输入描述文字后，生成的配置可以自行修改；GPTs会进一步多轮询问细节，也可到配置中自己手动修改；豆包最为直接，一步生成无需修改（主要是也没有改的地方）

（为对齐豆包没有配置功能，GLMs和GPTs的智能体配置自动生成后不做修改；由于豆包限制无法上传知识库，故谐音梗也不对豆包做要求）

整体效果来看，GPTs最佳，投喂谐音梗融会贯通，句式偏单一；GLMs默认生成的配置可用性有待提升，对谐音指令没有理解，品质跟豆包差不多。

GLMs配置经过手动修改后，效果提升明显，基本达到了GPTs的默认水平。

社区供稿｜GPT-4 与国产模型，大！横！评！

本环节最终计分排名如下：

GPTs最好，因默认配置高可用、一次过关得10分；

GLMs鉴于修改后品质有提升，得7分；

豆包因为不能改配置，效果把控还得从抽象的描述语下手优化，计6分；

文心不具备功能，不得分。

社区供稿｜GPT-4 与国产模型，大！横！评！

新功能效果最终得分

社区供稿｜GPT-4 与国产模型，大！横！评！

可以看到智谱GLM-4 各项新功能与GPT4对齐很紧凑，基础能力差距不大，但智能体水平明显落后。文心一言4.0和豆包或多或少在某些功能上有所缺失，需要补齐。

三、应用实践

我们从日常生活、工作选了一些真实需求场景，不加辅助也没有上下文干预，直接对大模型提问，来看看它们的表现吧~

1、文本生成，让模型来句吉利话

年关将至，不论走亲访友，还是发朋友圈，都少不了顺口的祝福语。

国内大模型本地化都好过GPT4，具体表现看下图！

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

祝福语环节各家都有瑕疵，评判标准按整句都有压上韵、且能给到更长，各家分数如下

社区供稿｜GPT-4 与国产模型，大！横！评！

2、语义理解，来一轮常识快问快答~

问问用户画像？

四家能理解需求，GLM-4主动调用搜索查了资料，信息量更大，综合提高了内容置信程度，是我理想的10分回答。

其他三家显得有点泛了。

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

等等，还有老干妈卫衣？？

社区供稿｜GPT-4 与国产模型，大！横！评！

惊呆了！

下一题，今年元宵节几号？

答：2024年2月24日

于模型而言有一个大坑，“今年是哪年”

本轮豆包获胜10分。

GPT4又是一通操作，拉出python算日历，“occurs 15 days after Lunar New Year”这套算法可给各位看笑了，本地化还是不行呀。

GLM4起码知道2024年，但是查不清数，GPT4和GLM4勉强得1分。

文心还是不太能理解今夕何夕，严格讲不算对，5分很勉强了。

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

本环节分数如下

3、数理计算，小孩嫌大人愁的数学题来了！

先请出高考客观题，众所周知模型很不擅长这些，试卷答案也不给解题步骤，所以模型没有小抄可学~

寒假期末考请听题！

开胃甜点~

问：圆C的方程是x(2)+y(2)+2x+4y=0，则其圆心坐标是，半径是

答：（-1，-2），

本轮全胜~

还小试了一下换了个数，避免有模型储备原题，发现还是可以正常解的，各家仍是正确结果。

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

再来！

问：已知正数a，b，c满足，则的最大值为

答：-2

GLM4与GPT4本轮平手，都满分，文心和豆包一通操作猛如虎，轮到输出嘛，0分……

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

高考大题！

问：设a∈R，函数f（x）=|x(2)+ax|，

（1）若f（x）在[0，1]上单调递增，求a的取值范围；

（2）记M（a）为f（x）在[0，1]上的最大值，求M（a）的最小值．

答：（1）a≥0或a≤-2；（2）最小值

本题分值：10分，第一小题回答部分答案计3分，完整计5分，第二小题5分

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

本环节计分排名如下：

社区供稿｜GPT-4 与国产模型，大！横！评！

4、代码解释，编程能力强不强，实践出真知~

用代码画一个一箭穿心

Python画心已经玩过很多了，一箭穿心如何？代码能跑出来的期望效果如下，看哪家最接近~

社区供稿｜GPT-4 与国产模型，大！横！评！

GLM-4对比其他家美观一些，就是这个一箭穿心跟我想得不太一样，复制代码单独跑验证一致。

GPT4起码画出了心，就是穿得很迷离，而文心和豆包的心都不知道哪去了……

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

GPT4：

社区供稿｜GPT-4 与国产模型，大！横！评！

文心4.0：

社区供稿｜GPT-4 与国产模型，大！横！评！

豆包：

社区供稿｜GPT-4 与国产模型，大！横！评！

本轮效果都不是很满意，跟穿心好像没啥关系

GLM4和GPT4好在还有个心，而GPT4那飘逸的穿法也让人印象深刻，GLM4明确画出了箭头元素，得6分，GPT4得5分。

文心、豆包都没达到基本效果，0分~

社区供稿｜GPT-4 与国产模型，大！横！评！

应用实践最终得分

社区供稿｜GPT-4 与国产模型，大！横！评！

综合来看，GLM-4在各个场景表现可圈可点，稳如四边形战士；不得不提文心4.0的表现真的很牛，唯一一家高考数学大题能拿下完整第一小题得分的学霸，却在代码这块翻车了；豆包的常识查询目前最好，“今年”这个陷阱优雅的越过；GPT4虽说是最强大模型，但多少还是有点水土不服，高昂的价格加上国内使用限制，目前来看用户也许有了新选择……

四、三个月能发生什么？

智谱的GLM-4表现可以说可圈可点，作为1月刚更新的新模型，我们特地拿它和3个月前发布的，目前依旧在产品端上线中的GLM-3做了个对比，也算是让大家直观感受到国产大模型的进步速度吧！

1、文本生成

上面试了祝福语，在这写点小情书吧~

上一代模型GLM-3 给了一大段，情绪表达相当直接。

在GLM-4上，能选的句子更多，量大管饱多场景，兄弟你成长了很多嘛~

GLM3：

社区供稿｜GPT-4 与国产模型，大！横！评！

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

2、语义理解

问题1：车厘子Santina是杂交品种么，原产地是哪里

车厘子成为了近两年的新年货，看看模型是否了解品种知识

上一代模型GLM-3的知识库显然没有存储车厘子品种的信息，对Santina的培育情况并不了解，还是按欧洲甜樱桃来回复、

GLM-4 主动联网查询，获得了正确结果，信息量很大。

GLM3：

社区供稿｜GPT-4 与国产模型，大！横！评！

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

再来一题："I firmly believe that respect is a lot more important, and a lot greater, than popularity"，帮我搜一下这句是谁的名言？

GLM-3 回答了艾森豪威尔，经验证是错误的，还是有点幻觉在；

GLM-4 厉害很多，又是联网功能加了分。

GLM3：

社区供稿｜GPT-4 与国产模型，大！横！评！

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

3、数理计算

继续上数学大题~

记 ABC 的内角 A，B，C 的对边分别为 a，b，c，已知

(1)若，求 B；(2)求的最小值.

上一代模型GLM-3 对三角函数还是不太擅长，两道小题都没能答对；

GLM-4 完成了第一小题，结合前面各家横评，看来数学大题的第二小题始终是大模型的难关！

GLM3：

社区供稿｜GPT-4 与国产模型，大！横！评！

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

数学算累了，来点化学题换换脑子

问：足量铜与一定量浓硝酸反应，得到硝酸铜溶液和NO2、N2O4、NO的混合气体，这些气体与1.68L O2(标准状况)混合后通入水中，所有气体完全被水吸收生成硝酸。若向所得硝酸铜溶液中加入5 mol/L NaOH溶液至Cu2＋恰好完全沉淀，则消耗NaOH溶液的体积是( )

(A)60 mL (B)45 mL (C)30 mL (D)15 mL

答：A

上一代模型GLM-3 给了一连串的解题步骤，结果还是算错了；

GLM-4 解题调用了Python计算，解题思路清晰，确实做到了提升。

GLM3：

社区供稿｜GPT-4 与国产模型，大！横！评！

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

4、代码解释

继续试一下一箭穿心~

上一代模型GLM-3不能在界面内模拟，自我纠错给了两版代码实际验证都不是需求图形；

GLM-4对比美观太多，穿心马马虎虎有个箭尾，好在复制代码单独跑效果也是一样的。

GLM3：

社区供稿｜GPT-4 与国产模型，大！横！评！

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

换个新玩法，代码画一个能走的时钟

用Turtle画一个带显示星期功能，能按当前时间动的时钟

期望效果如下，显示能动的表盘动画

社区供稿｜GPT-4 与国产模型，大！横！评！

很尴尬，上一代模型GLM-3 把需求识别成普通的画图了；

GLM-4 受限无法直接运行Turtle图形库，给出的代码跑了一下，真不错。

GLM3：

社区供稿｜GPT-4 与国产模型，大！横！评！

GLM4：

社区供稿｜GPT-4 与国产模型，大！横！评！

小结：对比上一代模型，从这些基础能力能看得出 GLM4 下了不少功夫，各方面均提升显著。考虑到是三个月迭代的，这个速度也让人印象很深刻了。

五、结论

综合来看，GLM-4表现可圈可点，全面对标GPT的功能布局，可以用六边形战士来形容；豆包语义理解最强，更适用在生活化问答场景；文心虽然在代码生成解释环节输掉，整体实力不容小觑；GPT4的整体实力非常强，但应付国内的生产生活场景，还是有点吃力。

GLM-4的新功能中，让我印象深刻、帮助最大的，当属“数据分析”，对比同功能的GPT分析效果一致；还可以调教智能体，不会编程也能轻松拥有专属大模型；联网查询帮助也很大，实际体验效果不凡。对比智谱AI上一代模型，GLM-4的各项基础模型能力做到了全面强化，进步明显，在“数理计算”和“代码生成”有质的提升。

在我们之前的认知里，ChatGPT都是绝对的王者，当我们亲自体验它时，却发现在本地化表现并没有达到高预期，对于中文普通用户而言，我们使用ChatGPT仍有不小的门槛，“大模型元年”竞争如此激烈，在认清差距、努力提升之余，不知道国产大模型交上的这份答卷，是否也合你的心意？

社区供稿｜GPT-4 与国产模型，大！横！评！

文章来自微信公众号 “ 硅星人Pro ”

社区供稿｜GPT-4 与国产模型，大！横！评！

关键词: 人工智能实验室 , GPT-4 , 国产大模型 , chatGPT

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0