AI资讯新闻榜单内容搜索-模型测评

实测美团 LongCat：快到极致，但是别说追平 DeepSeek

用过才知道，「快」不是万能药。

来自主题: AI产品测评

10458 点击 2025-09-04 12:17

最强开源120b模型！OpenAI/国产终极二选一，速来看实测～

一直被称为"CloseAI"的OpenAI，终于舍得发布了他们继GPT-2之后的第一个开源模型：GPT-OSS

来自主题: AI产品测评

10385 点击 2025-08-07 17:45

EvaLearn：AI下半场的全新评测范式！

在三个月前，OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出，AI 研究正在从 “能不能做” 转向 “学得是否有效”，传统的基准测试已经难以衡量 AI 的实际效用，他指出现有的评估方式中，模型被要求独立完成每个任务，然后取平均得分。这种方式忽略了任务之间的连贯性，无法评估模型长期适应能力和更类人的动态学习能力。

来自主题: AI技术研报

8453 点击 2025-07-29 10:54

DeepSeek用户慎入！体验完这款百万Tokens新"源神"，我怕你回不去了【附5个神仙用法】

最近，我的AI交流群和别的一些AI群都炸锅了，话题的焦点是MiniMax-M1

来自主题: AI产品测评

12395 点击 2025-06-18 11:27

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

8388 点击 2025-03-04 14:28