AI资讯新闻榜单内容搜索-SuperCLUE

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: SuperCLUE
中兴星云拿下推理总分榜一!SuperCLUE 5月成绩出炉

中兴星云拿下推理总分榜一!SuperCLUE 5月成绩出炉

中兴星云拿下推理总分榜一!SuperCLUE 5月成绩出炉

就在刚刚,中兴通讯星云大模型获推理榜总分第一,总榜并列第二!而在数学推理、科学推理、代码生成的细分赛道上,它同样表现抢眼。更难得的是,它是业内少数通过国家级权威安全认证的大模型。

来自主题: AI资讯
7488 点击    2025-05-31 11:40
中文大模型幻觉测评系列:事实性幻觉测评结果发布!

中文大模型幻觉测评系列:事实性幻觉测评结果发布!

中文大模型幻觉测评系列:事实性幻觉测评结果发布!

SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。

来自主题: AI资讯
8061 点击    2025-04-15 17:04
大模型常用评测基准汇总

大模型常用评测基准汇总

大模型常用评测基准汇总

基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯
10495 点击    2024-07-23 19:24
GPT-4 Turbo首次被击败!国产大模型拿下总分第一

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

GPT-4 Turbo首次被击败!国产大模型拿下总分第一

OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),终于被国产大模型反将一军。

来自主题: AI资讯
6871 点击    2024-05-22 18:17
6款通用大模型在保险行业的能力PK测评报告 |ZionAI实验室大模型测评

6款通用大模型在保险行业的能力PK测评报告 |ZionAI实验室大模型测评

6款通用大模型在保险行业的能力PK测评报告 |ZionAI实验室大模型测评

参照SuperCLUE(中文通用大模型综合性测评基准)框架专门定制了1000道题目集,一一测试了ChatGPT4、 智谱chatGLM-4、Baichuan2-Turbo、百度ERNIE-Bot 4.0、Yi-34B-chat、llama 2等模型在保险业务上的表现。

来自主题: AI资讯
7401 点击    2024-03-07 10:34
最强端侧模型,面壁MiniCPM位列SuperClue榜单表现前列

最强端侧模型,面壁MiniCPM位列SuperClue榜单表现前列

最强端侧模型,面壁MiniCPM位列SuperClue榜单表现前列

随着终端侧 AI 变革席卷全球,「小而强」的端侧大模型,成为行业主流玩家的必争之地。

来自主题: AI资讯
4114 点击    2024-03-03 09:43
一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

商业利益的加入,就必然会驱使AI大模型厂商争先恐后去刷榜了。“不服跑个分”这句话,相信关注手机圈的朋友一定不会感到陌生。诸如安兔兔、GeekBench等理论性能测试软件,由于能够在一定程度上反映手机的性能,因此备受玩家的关注。

来自主题: AI资讯
5287 点击    2023-12-03 15:31
谁在评价大模型?AI大模型评测榜单乱象调查

谁在评价大模型?AI大模型评测榜单乱象调查

谁在评价大模型?AI大模型评测榜单乱象调查

新华社研究院发布了《人工智能大模型体验报告2.0》,对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型,最终讯飞星火排名第一,百度文心一言排名第二,阿里通义千问排在倒数第二。

来自主题: AI资讯
9400 点击    2023-09-24 12:43