AI资讯新闻榜单内容搜索-MMLU

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究

基准测试（Benchmarks）在人工智能的发展进程中扮演着至关重要的角色，构成了评价生成式模型（Generative Models）性能的事实标准。对于从事模型训练与评估的AI研究者而言，GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报

8363 点击 2025-11-28 09:28

AI竞技场，归根到底只是一门生意

AI模型排行榜分两类：以高考式标准化测试衡量特定能力的客观基准测试（如AAII、MMLU-Pro），以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场（如LMArena）。两者各有优劣和局限性，且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型，实用性至上。

来自主题: AI资讯

10080 点击 2025-08-07 10:45

中国在AI领域超越美国已是板上钉钉？吴恩达：美国无法保持领先

中国在人工智能领域已经成为全球竞争的重要力量。根据斯坦福 2025 年 AI 指数报告，美国虽然仍领先于顶级模型数量，但中国正在迅速缩小差距 —— 在 MMLU、HumanEval 等基准测试中的差距已从几乎双位数下降到几乎持平。

来自主题: AI资讯

7761 点击 2025-08-01 16:12

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

CMU团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的token预算！

来自主题: AI技术研报

6186 点击 2025-03-10 10:22

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

7274 点击 2025-03-04 14:28

微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining

OpenAI谷歌天天刷流量，微软也坐不住了，推出最新小模型Phi-4。参数量仅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。

来自主题: AI技术研报

8166 点击 2024-12-13 15:14

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

谁是在线购物领域最强大模型？也有评测基准了。

来自主题: AI技术研报

4165 点击 2024-11-20 15:09

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报

9254 点击 2024-11-20 15:02

刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。

来自主题: AI资讯

8036 点击 2024-09-06 16:36

大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

大模型权威测试，翻车了？！ HuggingFace都在用的MMLU-PRO，被扒出评测方法更偏向闭源模型，被网友直接在GitHub Issue提出质疑。

来自主题: AI技术研报

8397 点击 2024-07-12 00:44

AI资讯新闻榜单内容搜索-MMLU

AI基准测试集体塌房，最高84%都是坏题 ｜斯坦福最新研究

AI竞技场，归根到底只是一门生意

中国在AI领域超越美国已是板上钉钉？吴恩达：美国无法保持领先

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错

大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究