 
众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸
众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。
来自主题: AI技术研报
10769 点击    2024-05-20 16:20
 
最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。
 
2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。
 
关于Llama 3,又有测试结果新鲜出炉—— 大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项与GPT-4并列第一。
 
Claude 3不但数据集跑分领先,用户体验上也将成为最强大的LLM,GPT-5在哪里?
 
HuggingFace开源大模型排行榜,又被屠榜了。