AI资讯新闻榜单内容搜索-模型测评

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型测评

民办大模型MiniMax努力专升本

民办大模型MiniMax努力专升本

民办大模型MiniMax努力专升本

葬AI身边的朋友常常有个疑问：为什么MiniMax M3做的不够好（问了很多在做模型测评的朋友，也是类似看法），但市场仍然觉得他们是第一梯队？我朋友@朱亦辉的解释是，MiniMax M3的核心科技是叙事能力，让外界觉得他们和Kimi是一个级别，达到一个强行双骄的效果。

来自主题: AI资讯

10389 点击 2026-07-10 10:31

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

你有没有想过一个问题：我们平时选模型，到底有多少是因为它真的好用，又有多少是因为它便宜？

来自主题: AI产品测评

10123 点击 2026-06-30 09:55

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max，谁更强？

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max，谁更强？

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max，谁更强？

普通人看排行榜估计越看越疑惑，写文章该用哪个？数据分析该用哪个？写代码、审 PR、拆任务又该用哪个？我挑了四款最近讨论度很高的模型：Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max，做一次横评，看看它们在真实任务里的交付表现。

来自主题: AI产品测评

10223 点击 2026-05-30 15:26

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力，看Qwen3.7 Max 是否实至名归？！

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力，看Qwen3.7 Max 是否实至名归？！

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力，看Qwen3.7 Max 是否实至名归？！

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro，阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名，仅次于 Claude Opus 4.7。除了真实场景的用户选择，在传统的大模型固定评测榜单上，像是终端能力 Terminal Bench、编程能力 SWE Bench 等，Qwen3.7 Max 的表现也是拿下了国产模型的冠军。

来自主题: AI产品测评

11314 点击 2026-05-28 12:06

千元横测GPT、DeepSeek、Xiaomi、MiniMax的最强模型，我找到了跟Agent们的绝配

千元横测GPT、DeepSeek、Xiaomi、MiniMax的最强模型，我找到了跟Agent们的绝配

千元横测GPT、DeepSeek、Xiaomi、MiniMax的最强模型，我找到了跟Agent们的绝配

上周太集中发的后果就是光在用GPT -5.5了，小米的Mimo-V2.5-Pro，DeepSeek V4 Pro还没有放在Agent的场景上测。所以我跟钱包一拍即合，复制了4个一模一样的Hermes Agent，记忆一样，skill一样，系统设置一样，能调用的工具也一样。

来自主题: AI产品测评

11734 点击 2026-05-03 08:49

国产大模型杀疯了！一手横测 MiniMax、DeepSeek V4、Kimi K2.6、MiMo 后，我找到了最能干活的 AI 牛马

国产大模型杀疯了！一手横测 MiniMax、DeepSeek V4、Kimi K2.6、MiMo 后，我找到了最能干活的 AI 牛马

国产大模型杀疯了！一手横测 MiniMax、DeepSeek V4、Kimi K2.6、MiMo 后，我找到了最能干活的 AI 牛马

从去年开始做这个账号以来，我其实写过不少测模型的文章。我相信也有很多朋友是因为看了我测评的文章关注我的。但从过年之后，真的就很少写模型评测的文章了。主要是我写文章的速度甚至一度跟不上模型发布的速度了。

来自主题: AI产品测评

11476 点击 2026-05-02 11:01

体验完4月最强的三个模型：跑分涨了，却不说人话了

体验完4月最强的三个模型：跑分涨了，却不说人话了

体验完4月最强的三个模型：跑分涨了，却不说人话了

四月真是如风驰电掣：Anthropic 发布了 Opus 4.7，OpenAI 发布了 GPT 5.5，最后，DeepSeek 更新了暌违已久的 V4。三家公司的发布通稿读起来都差不多：跑分又涨了，上下文更长了，推理更强了，代码能力又创了新高。

来自主题: AI资讯

9071 点击 2026-04-29 09:45

一手实测首个龙虾模型：长路径任务不失误，一人包揽全栈开发

一手实测首个龙虾模型：长路径任务不失误，一人包揽全栈开发

一手实测首个龙虾模型：长路径任务不失误，一人包揽全栈开发

终于，“养虾人”们也有自己的专属模型了。

来自主题: AI产品测评

7373 点击 2026-03-17 09:28

花21000块钱，测34205条主流大模型用例，结论免费给你

花21000块钱，测34205条主流大模型用例，结论免费给你

花21000块钱，测34205条主流大模型用例，结论免费给你

春节闭关五天，我做了个东西：一个大模型场景化测评平台。35000+ 次模型跑测，一共 42+ 模型，11,000 块人民币。我全部跑完了，结论汇成一个平台，还会持续更新。

来自主题: AI产品测评

10030 点击 2026-02-24 15:31

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

模型众多，该如何选择？ GPT-5：OpenAI的最新旗舰模型，统一智能系统，GPT-5 集成了多个模型，自动根据任务复杂度选择最适合的模型进行处理，多模态首选。 GPT-5 Thinking：GPT

来自主题: AI产品测评

14818 点击 2025-10-15 12:29

上一页当前第1页,共3页下一页