Kimi Beta内测模型实测，提升明显！

8709点击 2026-04-13 14:32

刚测完 Kimi K2.5，就拿到 Beta 版内测模型了。一点喘息的机会都不给啊~~

那就赶紧测试起来吧，不铺垫了！

Kimi K2.5 给我的感觉主要是快，效率高，思考深度一般。

关于 Beta 的特性，目前查不到任何资料。即便切换了，也没有任何显示上的区别。

所以只能拿例子来测了！

目前测试了两个例子，发现变化还是比较明显的。

目测 Kimi 正在解决它的短板，提升思考深度和智能体能力。

因为据说这个模型在 Kimi 自己的终端智能体才能发挥全力，所以这次我测试的工具是 Kimi。

Kimi Beta内测模型实测，提升明显！

下面看一下具体的两个测试例子和测试结果。

多模态测试

这个主题我们已经测了好几天，好几个模型了，所以可以有很好的对比。尤其是刚刚测了kimi K2.5！

这个测试的主题是：克隆 Claude 官网。

Kimi Beta内测模型实测，提升明显！

主要是给了 6 个关注点不同的截图，然后让模型最大程度地还原这个网页，比较考验多模态识别的能力。

提示词是：

参考 docs 下的所有图片制作网页，要求完美还原设计稿。

包括配色，图标，布局，字体，功能菜单等方面。

并且要使用 Anthropic 协议实现基础的聊天对话功能，

其他功能只需要完成 UI 展示和互动即可，无需实现具体功能！

调用的接口信息如下：

"baseURL": "https://open.bigmodel.cn/api/anthropic"

"apiKey": "xxxx"

"models": [

"glm-5.1",

"glm-5-turbo",

"glm-5",

"glm-4.7",

"glm-4.5-air"

"selectedModel": "glm-5.1",

然后我们一起来看下结果。

Kimi Beta 的效果：

Kimi Beta内测模型实测，提升明显！

Kimi K2.5 的效果：

Kimi Beta内测模型实测，提升明显！

一对比就非常明显了。

Beta 效果要好很多。除了 logo 图标之外，其他样式都比较到位，没有明显的问题。

想比K2.5而言：

左边不应该出现的滚动条没了。
左下角的头像和下载图标已经优化得很好了。
中间的 Good afternoon 字体和大小比例更加接近原版。
右下角的语音输入不再是话筒形状了，而是完美复刻原版。

模型选择：

Kimi Beta内测模型实测，提升明显！

这部分的细节也非常到位了，模型勾选、扩展思考、发送图标的动态变化都做的可以。唯一问题是这个发送图标本来是方的，它做成了圆的。

Kimi Beta 对话界面：

Kimi Beta内测模型实测，提升明显！

Kimi K2.5 对话界面：

Kimi Beta内测模型实测，提升明显！

这个界面提升也很大。

K2.5 存在几个明显的问题：

左下角没有对话名称，

右上角没有分享按钮，

对话界面的模型选择打不开。

这些问题 Beta 都解决了。

从对比来看，Beta 在字体还原、布局还原、细节还原方面都有很大的提升。

之所以有这么大的提升，主要还是思考策略和深度不一样了。这一点从它生成代码的目录结构和生成过程就能看出来。

Kimi Beta内测模型实测，提升明显！

同样的需求，K2.5 几乎不怎么思考，只做了一个 html 文件。Beta 模型想了很久，做了 Plan，然后创建了一个完整的 React 项目。

你看它这个执行过程：

Kimi Beta内测模型实测，提升明显！

它分析完成之后说这是个大工程，涉及多个文件，应该进入计划模式。

然后创建了一个有 9 个步骤的计划：

Kimi Beta内测模型实测，提升明显！

执行完成之后构建确认，还回顾所有文件夹结构，确保没有遗留，并且运行了服务器。

这个执行过程和思路已经非常全面了，我甚至觉得有点过分思考了，因为这个项目其实并不是特别复杂的项目。

Kimi Beta 好像是从一个性子很急的小伙子变成了一个相对稳重的年轻人。

知道做事前会想清楚，做的国产按步骤来，做完后要检查一下。

这个特性非常适合做一些复杂的业务。

那我们的 JarvisBench 就派上用场了。

复杂业务测试

我先简单介绍一下 JarvisBench。

老粉应该很熟悉了，我已经用这个项目把国内外的模型都测了个遍，好多国产模型，及格分都到不了。

Kimi Beta内测模型实测，提升明显！

为了照顾新人，我还是简单介绍一下我这个测试项目。

Kimi Beta内测模型实测，提升明显！

年初，我买了国内 6 大平台的 CodingPlan，为了测试出不同平台的真实水平和差异。我就自己开发了一个 CodingPlan 的测试平台。在开发过程中遇到了一些问题。我就把这个问题独立出来当做测试环节了。

这个测试项目，有几个特点：

有一定的上下文基础，大概有 8,000 行
涉及到数据结构的修改和老数据升级
涉及到业务逻辑的修改。
涉及到多个功能页面的修改

我提出的需求也相对开放，不是非常严格的技术文档：

目前群聊接力的时候可以选择平台管理中的模型，也可以对这些模型预先配置系统提示词和角色提示词，这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。

我希望换另外一种设置：**角色里面选模型**，然后群聊开始的时候，我可以直接选平台，也可以直接选角色。角色的管理还是在系统设置的"角色管理"中进行。

为了实现上面的需求，角色功能需要升级：

- 除了可以设置提示词之外，还得能**选择平台和模型**

- 另外还能**设置头像**

- 如果设置了头像，群聊的时候就显示自定义头像；如果没有设置头像，就用对应模型平台的 logo 作为头像

我的需求大概是这样。说说你对这个需求的理解，不急着写代码

下面是它的分析结果：

Kimi Beta内测模型实测，提升明显！

很明显，它在理解需求的时候已经阅读了代码，并且给了非常清晰的思路。这个思路比很多模型都要清晰。

同时也提出了几个需要确认的点：

Kimi Beta内测模型实测，提升明显！

因为上面很多业务它已经理清楚了，所以这里问的问题不多。

但是问到了一个很关键的问题，就是平台配置里的角色和系统提示词要不要保留。

这个是隐藏考点，它直接就发现了，而且询问我。

这对它来说就非常有优势了。因为问我了，最终返工的可能性就很小。

这次的开发过程日志是非常多的，我就不全部呈现了。

我们直接看结果。

先来看角色管理功能：

Kimi Beta内测模型实测，提升明显！

这一部分几乎没有任何问题。平台、模型、头像上传全部加上了。

添加角色，编辑角色，删除角色全部正常。

另外角色列表里也附带了平台和模型，这一点细节是非常好的。

群聊创建：

Kimi Beta内测模型实测，提升明显！

这部分都做到了，没啥问题，唯一的问题就是平台和角色互斥这一点没做到。因为它分析需求的时候没想到，我也故意不提。更聪明的模型会想到并询问我，然后就不会做错了。

群聊对话：

Kimi Beta内测模型实测，提升明显！

对话逻辑没有任何问题。但是由于平台和角色没有做互斥，导致聊天界面既有平台，又有角色，非常混乱。

另外一个小细节是，它没有设置角色的默认头像。我在需求中提到了，如果角色头像没有设置，可以用平台 Logo 作为默认头像。

说实话，这个完成度已经很高了，相比Kimi K2.5也是非常大的提升。

具体可以参考这篇《MiniMax 和 Kimi 都是人才，“吊打” Opus 4.6》

Kimi K2.5 当时有一个大 Bug

添加角色的时候选择了平台，添加完成之后，平台和模型信息根本没做持久化。

另外，角色编辑功能点了没有任何反应。

导致后面的功能全部无法跑通！

目前整个逻辑是能跑通的，只是有一两个小细节没有做好。这个成绩已经跑赢大部分国产模型了，比 MiniMax 肯定是好很多了。

从这个例子看，和 GLM5 已经不相上下。

当然，所有大模型都存在抽卡概率，这个我们是没法杜绝的！

我天天夸 Opus 4.6，有些人觉得我针对国产模型。

其实并不是，我只针对虚假宣传！我只依据事实！

只要国产模型表现好，我就会夸！

我的逻辑很简单：

测试结果，决定我的标题和态度。

当然，如果看到有人“吹牛逼”，我就会把它“吹爆”！

文章来自于"甲维斯C"，作者 "Jarvis"。

关键词: AI新闻 , kimi , Kimi Beta , 月之暗面

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0