AI资讯新闻榜单内容搜索-模型测评

国产大模型杀疯了！一手横测 MiniMax、DeepSeek V4、Kimi K2.6、MiMo 后，我找到了最能干活的 AI 牛马

从去年开始做这个账号以来，我其实写过不少测模型的文章。我相信也有很多朋友是因为看了我测评的文章关注我的。但从过年之后，真的就很少写模型评测的文章了。主要是我写文章的速度甚至一度跟不上模型发布的速度了。

来自主题: AI产品测评

9160 点击 2026-05-02 11:01

体验完4月最强的三个模型：跑分涨了，却不说人话了

四月真是如风驰电掣：Anthropic 发布了 Opus 4.7，OpenAI 发布了 GPT 5.5，最后，DeepSeek 更新了暌违已久的 V4。三家公司的发布通稿读起来都差不多：跑分又涨了，上下文更长了，推理更强了，代码能力又创了新高。

来自主题: AI资讯

8055 点击 2026-04-29 09:45

一手实测首个龙虾模型：长路径任务不失误，一人包揽全栈开发

终于，“养虾人”们也有自己的专属模型了。

来自主题: AI产品测评

6551 点击 2026-03-17 09:28

花21000块钱，测34205条主流大模型用例，结论免费给你

春节闭关五天，我做了个东西：一个大模型场景化测评平台。35000+ 次模型跑测，一共 42+ 模型，11,000 块人民币。我全部跑完了，结论汇成一个平台，还会持续更新。

来自主题: AI产品测评

9237 点击 2026-02-24 15:31

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

模型众多，该如何选择？ GPT-5：OpenAI的最新旗舰模型，统一智能系统，GPT-5 集成了多个模型，自动根据任务复杂度选择最适合的模型进行处理，多模态首选。 GPT-5 Thinking：GPT

来自主题: AI产品测评

14075 点击 2025-10-15 12:29

实测美团 LongCat：快到极致，但是别说追平 DeepSeek

用过才知道，「快」不是万能药。

来自主题: AI产品测评

9697 点击 2025-09-04 12:17

最强开源120b模型！OpenAI/国产终极二选一，速来看实测～

一直被称为"CloseAI"的OpenAI，终于舍得发布了他们继GPT-2之后的第一个开源模型：GPT-OSS

来自主题: AI产品测评

9795 点击 2025-08-07 17:45

EvaLearn：AI下半场的全新评测范式！

在三个月前，OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出，AI 研究正在从 “能不能做” 转向 “学得是否有效”，传统的基准测试已经难以衡量 AI 的实际效用，他指出现有的评估方式中，模型被要求独立完成每个任务，然后取平均得分。这种方式忽略了任务之间的连贯性，无法评估模型长期适应能力和更类人的动态学习能力。

来自主题: AI技术研报

8038 点击 2025-07-29 10:54

DeepSeek用户慎入！体验完这款百万Tokens新"源神"，我怕你回不去了【附5个神仙用法】

最近，我的AI交流群和别的一些AI群都炸锅了，话题的焦点是MiniMax-M1

来自主题: AI产品测评

11774 点击 2025-06-18 11:27

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报

7920 点击 2025-03-04 14:28

AI资讯新闻榜单内容搜索-模型测评

国产大模型杀疯了！一手横测 MiniMax、DeepSeek V4、Kimi K2.6、MiMo 后，我找到了最能干活的 AI 牛马

体验完4月最强的三个模型：跑分涨了，却不说人话了

一手实测首个龙虾模型：长路径任务不失误，一人包揽全栈开发

花21000块钱，测34205条主流大模型用例，结论免费给你

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

实测美团 LongCat：快到极致，但是别说追平 DeepSeek

最强开源120b模型！OpenAI/国产 终极二选一，速来看实测～

EvaLearn：AI下半场的全新评测范式！

DeepSeek用户慎入！体验完这款百万Tokens新"源神"，我怕你回不去了【附5个神仙用法】

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

最强开源120b模型！OpenAI/国产终极二选一，速来看实测～