# 热门搜索 #
搜索
用国考题来测试“百小应”和 GPT-4o,到底谁能成功上岸?|AI鲜测
8936点击    2024-05-26 11:46


5月22号,百川智能正式发布了Baichuan 4大模型,并推出成立之后的首款AI搜索助手“百小应”。


官方称,Baichuan 4与国外主流大模型对比,在知识百科、长文本、生成创作等文科类中文任务上明显优于国外大模型。



百小应体验地址:


https://www.baichuan-ai.com/


另外,据说取名“百小应”是因为它能“一呼百应”。话不多说,AI测评组再次上线,V我50,让你看看“百小应”的实力。



所以本期AI测评内容重点:知识常识、言语理解、问题分析、逻辑推理、长文本。意外发现国考题在这些方面简直比弱智吧还要好用。


今天就来看看“百小应”和GPT-4o谁能考公上岸成功!


1


  AI国考——行测


一、常识——奇怪的知识又增加了


Q1:"毛病"指的是什么动物的毛?「国考真题」


 A.猪    B.狗    C.羊   D.马


双方作答(点击可看大图):



【答案】:D,马


百小应回答正确!


百小应 ???? ChatGPT 4o ???? 1:0


Q2:人体中最先衰老的器官是:「国考真题」


双方作答(点击可看大图):



【答案】:胸腺


百小应回答正确!


百小应 ???? ChatGPT 4o ???? 2:0


PS:什么?胸腺竟然是从出生就开始衰老退化了!我应该不是最后一个知道的吧!


(关注硅星Gen AI让你了解更多冷知识????)


Q3:图片中的小绿人叫什么名字(常识+多模态)「国考真题」





【答案】:皮特托先生


百小应:虽然冷门,但也难不倒我!


百小应 ???? ChatGPT 4o ???? 3:0


Q4:这条裙子是什么颜色的?


   (经典裙子,测测AI图片视觉如何)



双方作答(点击可看大图):




答案】:你看到的是什么颜色呢?????


百小应和ChatGPT 4o均能识别出该裙子的颜色分为两种不同情况,但ChatGPT 4o描述的更加清楚、准确,并了解到该裙子的颜色曾引发争议。


百小应 ???? ChatGPT 4o ???? 3:1


二、言语理解


春夏秋冬:四季()「国考真题」


A.喜怒哀乐:情绪       B.赤橙黄绿:颜色


C.早中晚:一天        D.东南西北:四方


双方作答(点击可看大图):



【答案】D


【解析】春夏秋冬:四季,全同关系和包容关系,春夏秋冬是四季,四季只有春夏秋冬。喜怒哀乐:情绪,情绪还有其他惊恐等。赤橙黄绿:颜色,颜色还有其他黑白红。早中晚:一天,一天除了早中晚还有上午下午等。东南西北:四方,东南西北是四方,四方只有东南西北,故选D


百小应答对!


百小应 ???? ChatGPT 4o ???? 4:1


三、问题分析


Q1:电脑黑屏怎么办?


双方作答(点击可看大图):




百小应回答时可以主动提问,并且支持联网多轮搜索,解决问题更具有针对性(询问方式还怪贴心的,有被服务到????);ChatGPT 4o则是列举出来一些常见的解决办法。这局胜负很明显了吧!

百小应 ???? ChatGPT 4o ???? 5:1


Q2:请你对比一下华为P70和苹果15pro


双方作答(点击可看大图):




两者均是以表格➕关键信息输出,结构清晰。但是两者的信息都不够准确,相对来说ChatGPT 4o的出错更少一些。所以这局ChatGPT 4o胜出。


百小应 ???? ChatGPT 4o ???? 5:2


四、逻辑推理


Q1:找出不同的选项()「国考真题」


 A.春天    B.夏天    C.秋天   D.冬天


双方作答(点击可看大图):




答案】C


【解析】因为“春、夏、冬”的字型都是上下结构,而“秋”是左右结构。故正确答案为C。


(你回答对了吗?)


百小应虽然选项对了,但是解析有点胡言乱语,不得分;ChatGPT 4o,答案没对,但解析略有一些道理,但不得分!


百小应 ???? ChatGPT 4o ???? 5:2


但是说实话,这题不管是答案还是题目本身在社交媒体上争论还是挺大的,现在看来在AI届也是挺有争议的。


Q2:甲、乙、丙、丁四人都报考了银行选拔考试,只有一个人通过笔试进入到面试,当被询问时,他们分别这样回答:


甲:我没有进入面试


乙:丁进入了面试


丙:乙进入了面试


丁:我没有进入面试


这四人中只有一个人说了真话,那么谁进入了银行选拔考试的面试?「国考真题」


A.甲     B.乙    C.丙    D.丁


双方作答(点击可看大图):




【答案】A。


【解析】第一步,乙与丁是矛盾关系,必是一真一假;第二步,由题干知只有一真,可以判断真命题在乙与丁中;第三步,可由上述推断甲和丙为假,据此得出甲进了面试。故答案选A。


百小应和ChatGPT 4o全都out????


百小应 ???? ChatGPT 4o ???? 5:2


1


  AI国考——申论(长文本生成创作)


问题:


“给定材料 5”提到,“在大变局的喧嚣中始终坚守住‘本分’,切实增强好‘本领’,不断突破创新,推动高质量发展的步伐就能坚实稳健,我们就能走向广阔的未来。”请结合对这句话的理解,参考给定材料,联系实际,自选角度,自拟题目,写一篇文章。


要求:


(1)观点明确,见解深刻;


(2)参考给定材料,但不拘泥于给定材料;


(3)思路清晰,语言流畅;


(4)字数 1000~1200 字。「国考真题」


双方作答:




两者的文章结构都比较清晰,那不如让Kimi当个中间人来评价两者的表现。



Kimi巴拉巴拉????总结:ChatGPT 4o写的好。



OK,这局胜负已分!ChatGPT 4o胜出。


1


  恭喜“百小应”成功上岸


最终结果百小应 ???? ChatGPT 4o ???? 5:3恭喜百小应以两分优势,成功上岸!在理解中文语境、常识等题目上,百小应表现突出,AI联网多轮搜索,主动提问的能力也有些惊艳。总的来说,不愧是国内排名第一大模型——Baichuan-4大模型


在国内价格战打到飞起的时候,百川智能凭实力突出重围。王小川表示,价格免费是优势,但不一定是竞争力。百川并不会掺和到价格战当中,因为To B不是公司的主要商业模式,价格战的影响也有限。公司会将更多的精力放在超级应用当中。


最后,王小川还私下透露,让AI助手百小应会提问,主要是为了日后的超级应用做积累。


文章来源于“硅星GenAI ”,作者“丸丸柚贝




AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/