# 热门搜索 #
搜索
搜索: 模型评测
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

来自主题: AI技术研报
9647 点击    2024-08-21 14:28
大模型常用评测基准汇总

基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯
9107 点击    2024-07-23 19:24
全员i人?《大闹天宫》MBTI测试让全公司炸锅!最神秘国产大模型团队出手了

最近,公司全体同事都在疯狂沉迷这款《大闹天宫MBTI》测试!各种直击打工人的灵魂拷问,让所有i人和e人在职场极限场景中反复拉扯。国产黑马和上影打造的原汁原味《大闹天宫》画风,简直让人一秒穿越回童年。

来自主题: AI资讯
5967 点击    2024-07-04 16:10
国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

来自主题: AI资讯
9278 点击    2024-05-17 17:25
大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五

关于Llama 3,又有测试结果新鲜出炉—— 大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项与GPT-4并列第一。

来自主题: AI资讯
7881 点击    2024-04-23 14:20
新测试基准发布,最强开源Llama 3尴尬了

随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。

来自主题: AI资讯
2488 点击    2024-04-22 20:58
谁才是最强的?清华给海内外知名大模型做了场综合能力评测

在 2023 年的 “百模大战” 中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。

来自主题: AI技术研报
6643 点击    2024-04-19 11:29
能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。

来自主题: AI资讯
7427 点击    2024-03-01 13:47