AI产品测评-这里有最详细的人工智能工具测评解析

1小时花一亿token极限实测DeepSeek-V4-Flash，得出7个结论

DeepSeek-V4-Flash风评冲爆了，原生支持接入Codex，而且还强化了Agent能力。我第一时间把它接进了Codex，用cc swich非常方便。一个小时，跑了一亿多token。跟大家说说体感。

来自主题: AI产品测评

8277 点击 2026-08-01 10:40

实测美团CatPaw：这只猫爪，抓得还算稳

7月27日，美团正式上线了CatPaw，一个全场景AI Agent平台。准确说，是「内部练了三年，现在放出来给所有人用」。

来自主题: AI产品测评

9764 点击 2026-07-29 09:51

用K3和GPT的同款考题，测了Gemini 3.6 Flash的前端

谷歌的前端功底有多深，不需要任何人来认证。

来自主题: AI产品测评

8731 点击 2026-07-24 11:08

Qwen-Image-3.0效果炸裂？我反手扔了这9道题

千问说它可以帮我拼九宫格了，还是不同主题的那种。

来自主题: AI产品测评

6394 点击 2026-07-24 11:05

花整个下午实测秒哒3.5，PRO会员也挡不住服务器崩溃

WAIC 2026上，百度秒哒带来了3.5版本。据官方数据，秒哒累计服务超过3500万用户，创造了350万个具有商业价值的应用，每天有近20万人在使用这些应用解决真实问题。

来自主题: AI产品测评

7096 点击 2026-07-23 11:17

深度体验 LibTV Agent：忘记工具，进入 AI 创作的心流

开始忘记软件以后，创作才真正开始。

来自主题: AI产品测评

9280 点击 2026-07-22 10:35

实测 PixVerse Game：当游戏可以「随玩随做」，是什么体验

最近有三个女孩火了。

来自主题: AI产品测评

6301 点击 2026-07-22 10:34

实测StaffDeck：「数字员工」平台离真能上岗了吗？

面壁智能上周开源了一个叫 StaffDeck 的东西。

来自主题: AI产品测评

8002 点击 2026-07-21 10:14

速测 Qwen3.8 预览版：我用 1 小时，开发了套撒币系统

我刚刚 AGI Bar 小程序里建了一个共享钱包，并往里面充了 1 万块，未来 24h可点开领取

来自主题: AI产品测评

10589 点击 2026-07-20 15:20

Kimi K3 一手开发实测，前端、Agentic、长任务全面拉满！

发布之前，我在 X 上看到有人说，测 K3 的感觉就像在测 Fable 5。虽然离 Fable 5 还差一点点 🤏，但超过 Opus 4.8 和 GPT 5.5 基本没有问题。在前端能力，K3 的提升非常明显，我已经用它复刻了前段时间爆火的独立工作室 Abeto 推出的一款 3D 网页游戏《 Messenger》（ps. 音乐手动配的，主角模型是 K3 自己判断、自主去游戏官网找的）

来自主题: AI产品测评

9537 点击 2026-07-19 13:57

连夜实测 Kimi K3，建议改名 Kable

今天凌晨看到 Arena AI 更新 Code Arena 榜单时，我第一反应是有点意外。刚刚发布的 Kimi K3 拿到了 1679 分，排在全球第一，压过了 Claude Fable 5 的 1631 分和 GPT-5.6 Sol 的 1618 分。

来自主题: AI产品测评

9846 点击 2026-07-17 11:12

告别版本号！豆包首款无限进步模型：Seed-Evolving实测

大家好，我是袋鼠帝。前几天，火山的朋友提前跟我同步了一个消息，说豆包Seed模型又更新了。

来自主题: AI产品测评

8874 点击 2026-07-17 11:05

LibTV把100+AI视频魔法，封装进了这个全球最大的Skill商店里｜测评

不知不觉，整个AI影像行业全线迈进了Agent创作与AI视频C端普及的时代。

来自主题: AI产品测评

8044 点击 2026-07-14 15:52

豆包、WorkBuddy、QoderWork怎么选？我用8个真实办公任务把三家桌面Agent测明白了

过去半年，国产大厂扎堆发布一种新东西：桌面Agent。如果你最近在刷相关讨论，会发现 WorkBuddy、豆包专业版、QoderWork 这三个名字出现得特别频繁。如果一个普通办公用户今天就想选一款桌面 Agent，到底该先试谁？

来自主题: AI产品测评

10226 点击 2026-07-14 12:22

用Grok 4.5 连写了 7 个小项目，发现它最大的优势不是代码

7 月 8 日，xAI 发布了 Grok 4.5。马斯克给的定位很直白，「Opus 级别，但更快，更便宜」。

来自主题: AI产品测评

10081 点击 2026-07-14 11:08

实测完这个国产 AI 生图，我发现了下一个刷屏玩法

AI 生图最难的地方，早就从「生成一张好看的图」变成了「把那张差一点的图改对」。

来自主题: AI产品测评

8697 点击 2026-07-13 15:30

字节把 PS 做进了生图模型里，实测 Seedream 5.0 Pro 指哪改哪

用 AI 生图的人，应该都体会过这种痛苦。

来自主题: AI产品测评

8198 点击 2026-07-13 14:42

一个人+一个Agent，我把开店要的图全跑通了，方法全公开

大家好，我是冷逸。前段时间，我设计了一家民宿「冷同学的院子」，视觉还算有点意思，不少朋友跑来问设计上的事。也有人问我：要是自己网上开店，有没有那种“够简单、说一句就能出设计”的电商工具？

来自主题: AI产品测评

6739 点击 2026-07-13 09:43

深度测评：Trae、WorkBuddy、ZCode，谁才是打工人真命天子？

我自己花时间，把三款主流国产桌面 Agent 从头到尾测了一遍：Trae、WorkBuddy、ZCode。用三个最日常的工作任务——做 PPT、分析表格、写小游戏，看看它们到底能不能帮普通打工人干活。这篇文章就是完整的实测记录，希望对你选工具有点帮助。

来自主题: AI产品测评

9894 点击 2026-07-12 10:08

实测 ChatGPT Work vs Claude Cowork，OpenAI 这次真追上来了

7 月 9 日，OpenAI 一口气发了三样东西，新模型 GPT-5.6，一个把 Chat、Work、Codex 装进同一个壳的新桌面应用，以及本文的主角 ChatGPT Work。官方的说法是，ChatGPT 从此不再只是回答问题，而是把活真正干完，交出来的不是聊天记录，是表格、文档、PPT，甚至一个能直接分享的网站。

来自主题: AI产品测评

8419 点击 2026-07-11 11:17

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

最近这段时间，国内外模型更新得很快。

来自主题: AI产品测评

9461 点击 2026-07-03 09:48

再测LongCat 2.0长任务，这次我让他在codex里面做了个游戏

上个月也就是昨天，我写了一篇LongCat 2.0的实测，用四个任务测了一下它的编程能力，当时我的评价是「有些地方惊艳，有些地方还差点意思」。

来自主题: AI产品测评

7988 点击 2026-07-02 10:36

我们拿到了企微 AI Agent 的内测资格，提前替你试了一周

微信和企业微信的 Agent，同时出牌。

来自主题: AI产品测评

9892 点击 2026-07-01 10:27

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

你有没有想过一个问题：我们平时选模型，到底有多少是因为它真的好用，又有多少是因为它便宜？

来自主题: AI产品测评

10144 点击 2026-06-30 09:55

我们让DuMate当了一天采购员，结果差点拿着假报价去砍价

阿辉又跟我们吐槽了。

来自主题: AI产品测评

6815 点击 2026-06-29 10:19

智谱与Anthropic是母凭子贵

Anthropic增加绿卡认证后，最开心是智谱，直接原地化身战狼，高呼「前沿智能属于所有人」，提前把专注Coding的GLM5.2发了。

来自主题: AI产品测评

8955 点击 2026-06-24 16:36

Codex兼容国产开源模型！实测DeepSeek接入：门槛还是太高

6月17日，X 上 OpenAI Codex 团队负责人 Tibo（@thsottiaux）发了一条推文，提醒大家 Codex App、CLI 和 SDK 现在可以接任何开源模型，不只限于 OpenAI 自己的模型。

来自主题: AI产品测评

8696 点击 2026-06-24 10:53

Seed 2.1 Pro 测评，终于能胜任 Agent 工作了

今天 Seed 2.1 Pro 正式发布，我提前用它做了一些测试。

来自主题: AI产品测评

7594 点击 2026-06-24 10:30

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0（Seed-Audio 1.0）。

来自主题: AI产品测评

8880 点击 2026-06-24 10:29

微信 AI 全网最细体验，我又爱上了刷朋友圈

微信 AI 终于来了。

来自主题: AI产品测评

8077 点击 2026-06-24 09:55

AI产品测评-这里有最详细的人工智能工具测评解析

1小时花一亿token极限实测DeepSeek-V4-Flash，得出7个结论

实测美团CatPaw：这只猫爪，抓得还算稳

用K3和GPT的同款考题，测了Gemini 3.6 Flash的前端

Qwen-Image-3.0效果炸裂？我反手扔了这9道题

花整个下午实测秒哒3.5，PRO会员也挡不住服务器崩溃

深度体验 LibTV Agent：忘记工具，进入 AI 创作的心流

实测 PixVerse Game：当游戏可以「随玩随做」，是什么体验

实测StaffDeck：「数字员工」平台离真能上岗了吗？

速测 Qwen3.8 预览版：我用 1 小时，开发了套撒币系统

Kimi K3 一手开发实测，前端、Agentic、长任务全面拉满 ！

连夜实测 Kimi K3，建议改名 Kable

告别版本号！豆包首款无限进步模型：Seed-Evolving实测

LibTV把100+AI视频魔法，封装进了这个全球最大的Skill商店里｜测评

豆包、WorkBuddy、QoderWork怎么选？我用8个真实办公任务把三家桌面Agent测明白了

用Grok 4.5 连写了 7 个小项目，发现它最大的优势不是代码

实测完这个国产 AI 生图，我发现了下一个刷屏玩法

字节把 PS 做进了生图模型里，实测 Seedream 5.0 Pro 指哪改哪

一个人+一个Agent，我把开店要的图全跑通了，方法全公开

深度测评：Trae、WorkBuddy、ZCode，谁才是打工人真命天子？

实测 ChatGPT Work vs Claude Cowork，OpenAI 这次真追上来了

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

再测LongCat 2.0长任务，这次我让他在codex里面做了个游戏

我们拿到了企微 AI Agent 的内测资格，提前替你试了一周

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

我们让DuMate当了一天采购员，结果差点拿着假报价去砍价

智谱与Anthropic是母凭子贵

Codex兼容国产开源模型！实测DeepSeek接入：门槛还是太高

Seed 2.1 Pro 测评，终于能胜任 Agent 工作了

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

微信 AI 全网最细体验，我又爱上了刷朋友圈

Kimi K3 一手开发实测，前端、Agentic、长任务全面拉满！