Kimi K2.5 深度实测：变强了，但待「封神」

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

11047点击 2026-01-31 15:58

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

人人可用的 AI Agent，应该是什么样的？

三天，四款模型，N 个产品。这就是 2026 年开年，大模型行业展现出的态势。

沉寂了小半年，Kimi 显然不想将 2026 年的第一个有关通用大模型的话题权交给其他人。

这次，Kimi 终于将产品线补齐，无论是视觉感知，还是 Agent 能力，又或者编程能力，Kimi 都用 Kimi K2.5 这款万亿大模型证明自己在通用领域的实力。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 在多个领域的最新评分｜图源：Kimi

简单来说，Kimi K2.5 在推理能力、认知图谱上都更强了。

基于 Kimi K2.5 的能力，Kimi 现在能够提供单个性能的 Kimi Agent 和多个 Agent 协作的 Agent Swarm（多智能体集群），允许多个 AI Agent 并行协作处理复杂任务的架构。

此外，Kimi K2.5 还打造了 Kimi Code 平台，它能接入本地开发环境，可阅读项目文件、分析代码结构，并据此自动生成或修改代码、执行测试与命令。

整体产品线来说，Kimi K2.5 是针对普通人的，相当于模型性能迭代提高。Kimi Code 和 Kimi Agent 功能都是面向程序员的，开源代码放在 GitHub 上了，有算力都可以尝试使用，但对普通人来说，使用门槛仍然较高。

不知道是实际体验的用户真的变多了，还是 Kimi 想要用户付费订阅的意愿变得更强了，在我们体验的过程中，Kimi 官网常常跳出正在「和很多人沟通，加入订阅能够优先排队哟」的提示界面，一时间幻视打开某些视频平台，观看 3 分钟开始付费。并且，Kimi Code 和 Kimi Agent Swarm 暂时没有免费体验机会。

整体体验下来，Kimi K2.5 本身在长文本理解、思考维度以及「通人性」变得更强了，一些文本深度分析能力也有了不小的进步。尤其是在视觉理解能力上，效果超出预期。

基于 Kimi K2.5 的 Agent 功能，我们在测试了网页制作、行业报告撰写以及新闻图表等多个维度。在网页制作的程序上，Agent 表现的效果很好，但是在专业性的内容制作，以及带有审美感的新闻图表上展现出来的能力都比较一般，没有特别惊艳。

此外，在调用相关 Agent 能力时，模型运转的流畅程度也比较一般，偶尔会出现停止运转的情况，常常一个复杂 Agent 指令需要运行 30 分钟左右才能看到结果。而且对于有明显矛盾的指令也会直接响应，没有反馈或者询问环节。

2026 刚开年，这场有关 AI 自动化执行的火已经开始烧得越来越旺了。Kimi 作为作为较早推出 Agent 产品的通用大模型厂商，也借着 Kimi K2.5 表明了自己在通用领域的站位和思考，Kimi K2.5 也算是给正在急着尝试玩转 Agent 的中国开发者们，一个值得选择的工具。

Kimi K2.5，变强了，

但未必变得更聪明了？

为验证 Kimi K2.5 的实际能力边界，我们选取了三个关键维度进行实测：通过长文本理解考验基础能力，通过视觉分析考验多模态能力，再通过创意设计考验审美与执行。

首个测试聚焦其最擅长的长文本处理。我们分别喂了一篇 40 万字的长篇小说给 Kimi K2.5 和 Qwen3-Max，让其分析主要关系人物图以及梳理主角成长路线。

Qwen3-Max 的分析速度非常快，但是给出的关系图也比较简单，包括人物成长经历分析上理解比较浅层，但框架正确。Kimi K2.5 则是给出较为详尽的关系图谱，并且对于小说中出现的其他人物均能够按照势力、关系远近进行梳理。从小说内容理解上，比 Qwen3-Max 要更深一步，并且大多数小说暗线也能够理解，对于人物身份走向的揣测也基本正确。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Qwen3-Max 分析结果图源｜极客公园

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 分析结果图源｜极客公园

随后，我们追问了一个开放性回答，有关对主人公最重要的人是谁？Qwen3-Max 则给出了多个角度，避开唯一性，而 Kimi K2.5 则选择多种角度分析，还能够从多维度上比较后，给出最终答案，从思考能力、推理方向以及理解能力上都有比较明显的进步。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Qwen3-Max 分析结果图源｜极客公园

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 分析结果图源｜极客公园

其次，我们测试了 Kimi K2.5 的视觉理解能力，将其与 Gemini 模型对比。我们上传了一张 3 页 PDF 的指令集，并且附有分析例图，让 Kimi K2.5 来分析一段 30 秒的网球动作，并给出错误姿势纠正。首先在视频格式上，Kimi K2.5 能够支持苹果 MOV 模式，形式更加多样化。但是，其单段视频内存限制仍在 100MB 以内，也就是大约 3 分钟以内。

这次结果比较意外，Kimi K2.5 能够读懂复杂的长指令，并且给出合适的指导建议，并且非常详细，也相对专业。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 测试结果图源｜极客公园

我们之前曾用 Gemini 做过相似的测试，得出结果图如下，整体看来两者对图片分析能力不分上下，但 Kimi K2.5 对指令理解相对更优。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Gemini 测试结果图源｜极客公园

最后，我们来考验 Kimi K2.5 的审美能力，同样将其与 Qwen3-Max 进行比较。我们上传了一段复杂指令，让其基于《中国城市公共充电桩空间公平性报告》打造一个数据新闻，最终考验其数据新闻是否能够达到专业媒体水准。

但最后呈现效果，并不如预期，呈现的效果比较简陋。但对于整体复杂涉及到多模态的任务，完成得比较仔细。但数据来源并没有调用真实参考信息，图表设计也比较基础，没有太多审美感。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 测试结果图源｜极客公园

为了再给 Kimi K2.5 一次机会，我们还尝试给出一张素材图，和一段非常详尽的指令集，让其给我们设计一张新闻头图以考验其审美能力。但是输出的结果来看，PPT 感非常浓。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 测试结果图源｜极客公园

不过，Kimi K2.5 也算交出了一份答卷出来。我们带着同样的问题问了问 Qwen3-Max，Qwen3-Max 直接婉拒了回答。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Qwen3-Max 测试结果图源｜极客公园

从目前的测试效果来看，审美或许还是一个主观的视角，在多类不同领域的审美训练下，大模型对于「美」的定义和认知仍有一定差距。

上新 Skills 案例库，

Kimi 开始学会多想一步

打开 Kimi 官网，我们能看到 Kimi 官网的对话框内已经添加了 Agent 选项框，用户可以随时调用 Agent 程序。并且，对话框中还新添了一栏，可以让用户储存常用指令。

在对话框下，Kimi 提供了不少智能 Agent 参考案例，涉及网页应用、移动应用、数据分析三大类，提供了大约 20 个案例参考。只要你选择做同款，就会呈现完整的指令集，某种程度上也算是上了 Skills 案例库。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 参考测试案例图源｜极客公园

数据分析上，我们让 AI 跑了一下英伟达财报分析。在参考页面中，我们看到的数据分析非常的详尽，但是等我们正式开始体验的时候，发现 Agent 也并不是完美。

其中，最为明显的是，在我们最开始的一版提示词有明显矛盾点的时候，AI 并不会和你确认问题的选项，而是按照自己的推测去做后续执行。这也意味着如果你特别信任 AI，完全不看后续的执行路径的话，一个指令错误可能会造成整个 Agent 程序走向完全错误。

我们在官网运行跑完整个程序，15 张 PPT 大约跑了接近 30 分钟。并且，在 Prompt 几乎没有变动的情况下，两个 Agent 给出完全不同的结论推理。

参考案例给出的推论是，「英伟达财报效应确实存在」，而我们跑出来的结果则是「财报发布并非上涨催化剂，财报交易策略无效」。

同样的 Prompt，却给出了不同的答案，或许也从一定程度说明了当下 Agent 属于能用，但不够可靠，仍需使用者拥有明辨是非的能力，同时缺乏主动意图反馈机制，容错性不足。

第二次，我们自己参考 Prompt，编写了一段提示词。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

测试 Kimi K2.5 提示词图源｜极客公园

又等待了接近半小时后，我们看到了一个初步的网页设计界面。从页面设计来看，基本上能够满足原提示词的指令，并且符合一个科技公司常见的主页界面。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 测试结果图源｜极客公园

但是在理解能力，还是会有一些小问题，比如说，图上的品牌宣言，一般会是被隐去而不是用直接作为标题显示。这也说明 AI 在理解和执行上还是有需要改进的地方。

也会有些令人惊喜的地方，比如在网页设计提示词上我们并没有提到相关联系方式收集等，但是 Kimi 参考了大多数的网站之后，可以直接在官网设计建联页面。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 测试结果图源｜极客公园

甚至在底栏的一些设计上也比较贴心，有外置链接，甚至有小红书，也是十分与时俱进了。

Kimi K2.5 深度实测：变强了，但待「封神」｜AI 上新

Kimi K2.5 测试结果图源｜极客公园

体验完之后，能够明显感受到，当下 Agent 能力未必能够在执行上做到完美，但是能够通过指令的意图丰富整个执行细节，能够明白核心需求点是什么，给出更多的意外之喜。并且，Kimi 能够将网页链接直接部署到位，给出预览和安装包，供用户使用。

这是我们的测试结果链接：https://e56oqk3weoe7k.ok.kimi.link/#

此外，由于 Kimi Code 和 Agent Swarm 功能均需要高级会员才可以使用，因此我们很可惜暂时不能得出第一手测试结果。据了解，Kimi K2.5 的 Agent Swarm 功能采用分布式协同架构，最多可并行调度与管理 100 个子智能体。每个智能体均配备独立的工作记忆，能够自主执行任务，并遵循高效通信协议，仅在关键节点将处理结果汇总至中央调度器，从而大幅提升复杂任务的解决效率。

Agent 转向之年

从基于 Kimi K2.5 视觉理解的出色表现，我们可以预见多模态的 Agent 将成为 2026 年的竞争焦点，我们也嗅到了一些 2026 年模型界不一样的转向。

首先是，视觉能力的增强。无论是 Claude 还是 DeepSeek，在琢磨了一年的文本交互后，终于转向视频能力，补强此前视频分析的短板。视频理解能力超强带来的不仅是用户主动上传视频信息的分析更强，更是未来一些被动记录视频能力发挥更多的空间，会带来更多玩法。

其次，从目前通用模型生态来看，开源模型的活跃度在社区渗透和第三方集成上展现出更强能力，前有 Gemini、 Claude、GPT 对比，后有 Qwen3- max，Kimi K2.5 和 DeepSeek。Kimi K2.5 的开源虽然是在意料之外，但也算情理之中。但值得注意的是，消费者的付费意愿养成仍需依赖闭源模型的高端功能。

第三，是所有的通用大模型开始争取更好的利润，更多的付费形式。这次 Kimi Code 功能和 Agent 集群功能直接提供给高端付费用户，不开放任何试用，且 Kimi 的付费模式也开始变化，最高 199 元每月。OpenAI 要卖广告，Gemini 要上 Chrome 几乎都是一个原因，开源节流，模型公司们开始两手抓资金流向。

最后，通用模型公司们已经开始为 Agent 走入垂直场景做准备。Kimi K2.5 上线的 Agent Swarm 功能就是帮助更多企业打造垂类应用时能有模型底座支撑，方便企业能够通过不同类型的 Agent 扮演企业中的不同员工，各司其职，最终协同办公。

如果说 2025 年 DeepSeek 将模型成本降到无限低，是让人看到模型走向千行百业的关键之一。2026 年的开端，似乎预示围绕 AI 自动化的一切即将开始改变。从单个 Agent，走向几个 Agent，再到一群 Agent。Kimi K2.5 的出现，代表已经有通用大模型厂商看到这一趋势，并做出改变。

目前，从 Manus 到豆包手机，再到 Clawdbot，其实从模型诞生的第一天开始，人们对 AI 自动化的探索并未停止。当模型公司、应用公司以及硬件公司都瞄准一个方向发展，或许 2026 年也将会是 Agent 逐渐成熟，落地场景的一年。

*头图来源：Kimi

文章来自于微信公众号 “极客公园”，作者 “极客公园”

关键词: AI新闻 , Kimi K2.5 , Kimi K2.5实测 , Kimi K2.5测评

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务，包括网页浏览，文件操作，写代码等。OpenManus 使用了传统的 ReAct 的模式，这样的优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理。需要注意，Manus 有使用 Plan 进行规划。
项目地址：https://github.com/mannaandpoem/OpenManus

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0