Kimi Beta内测模型实测,提升明显!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Kimi Beta内测模型实测,提升明显!
6991点击    2026-04-13 14:32

刚测完 Kimi K2.5,就拿到 Beta 版内测模型了。 一点喘息的机会都不给啊~~


Kimi Beta内测模型实测,提升明显!


那就赶紧测试起来吧,不铺垫了!


Kimi K2.5 给我的感觉主要是快,效率高,思考深度一般。


关于 Beta 的特性,目前查不到任何资料。即便切换了,也没有任何显示上的区别。


所以只能拿例子来测了!


目前测试了两个例子,发现变化还是比较明显的。


目测 Kimi 正在解决它的短板,提升思考深度和智能体能力。


因为据说这个模型在 Kimi 自己的终端智能体才能发挥全力,所以这次我测试的工具是 Kimi。


Kimi Beta内测模型实测,提升明显!


下面看一下具体的两个测试例子和测试结果。


多模态测试


这个主题我们已经测了好几天,好几个模型了,所以可以有很好的对比。尤其是刚刚测了kimi K2.5!


这个测试的主题是:克隆 Claude 官网


Kimi Beta内测模型实测,提升明显!


主要是给了 6 个关注点不同的截图,然后让模型最大程度地还原这个网页,比较考验多模态识别的能力。


提示词是:


参考 docs 下的所有图片制作网页,要求完美还原设计稿。

包括配色,图标,布局,字体,功能菜单等方面。


并且要使用 Anthropic 协议实现基础的聊天对话功能,

其他功能只需要完成 UI 展示和互动即可,无需实现具体功能!


调用的接口信息如下:


"baseURL": "https://open.bigmodel.cn/api/anthropic"

"apiKey": "xxxx"

"models": [

   "glm-5.1",

   "glm-5-turbo",

   "glm-5",

   "glm-4.7",

   "glm-4.5-air"

  ],

"selectedModel": "glm-5.1",


然后我们一起来看下结果。


Kimi Beta 的效果:


Kimi Beta内测模型实测,提升明显!


Kimi K2.5 的效果:


Kimi Beta内测模型实测,提升明显!


一对比就非常明显了。


Beta 效果要好很多。除了 logo 图标之外,其他样式都比较到位,没有明显的问题。


想比K2.5而言:


  • 左边不应该出现的滚动条没了。
  • 左下角的头像和下载图标已经优化得很好了。
  • 中间的 Good afternoon 字体和大小比例更加接近原版。
  • 右下角的语音输入不再是话筒形状了,而是完美复刻原版。


模型选择:


Kimi Beta内测模型实测,提升明显!


这部分的细节也非常到位了,模型勾选、扩展思考、发送图标的动态变化都做的可以。唯一问题是这个发送图标本来是方的,它做成了圆的。


Kimi Beta 对话界面:


Kimi Beta内测模型实测,提升明显!


Kimi K2.5 对话界面:


Kimi Beta内测模型实测,提升明显!


这个界面提升也很大。


K2.5 存在几个明显的问题:


左下角没有对话名称,


右上角没有分享按钮,


对话界面的模型选择打不开。


这些问题 Beta 都解决了。


从对比来看,Beta 在字体还原、布局还原、细节还原方面都有很大的提升。


之所以有这么大的提升,主要还是思考策略和深度不一样了。这一点从它生成代码的目录结构和生成过程就能看出来。


Kimi Beta内测模型实测,提升明显!


同样的需求,K2.5 几乎不怎么思考,只做了一个 html 文件。Beta 模型想了很久,做了 Plan,然后创建了一个完整的 React 项目。


你看它这个执行过程:


Kimi Beta内测模型实测,提升明显!


它分析完成之后说这是个大工程,涉及多个文件,应该进入计划模式。


然后创建了一个有 9 个步骤的计划:


Kimi Beta内测模型实测,提升明显!


执行完成之后构建确认,还回顾所有文件夹结构,确保没有遗留,并且运行了服务器。


这个执行过程和思路已经非常全面了,我甚至觉得有点过分思考了,因为这个项目其实并不是特别复杂的项目。


Kimi Beta 好像是从一个性子很急的小伙子变成了一个相对稳重的年轻人。


知道做事前会想清楚,做的国产按步骤来,做完后要检查一下。


这个特性非常适合做一些复杂的业务。


那我们的 JarvisBench 就派上用场了。


复杂业务测试


我先简单介绍一下 JarvisBench。


老粉应该很熟悉了,我已经用这个项目把国内外的模型都测了个遍,好多国产模型,及格分都到不了。


Kimi Beta内测模型实测,提升明显!


为了照顾新人,我还是简单介绍一下我这个测试项目。


Kimi Beta内测模型实测,提升明显!


年初,我买了国内 6 大平台的 CodingPlan,为了测试出不同平台的真实水平和差异。我就自己开发了一个 CodingPlan 的测试平台。在开发过程中遇到了一些问题。我就把这个问题独立出来当做测试环节了。


这个测试项目,有几个特点:


  1. 有一定的上下文基础,大概有 8,000 行
  2. 涉及到数据结构的修改和老数据升级
  3. 涉及到业务逻辑的修改。
  4. 涉及到多个功能页面的修改


我提出的需求也相对开放,不是非常严格的技术文档:


目前群聊接力的时候可以选择平台管理中的模型,也可以对这些模型预先配置系统提示词和角色提示词,这样已经可以通过系统提示词来个性化聊天了。但是通过平台配置里面绑定角色比较有局限性——这样一个平台就只能是一个角色。


我希望换另外一种设置:**角色里面选模型**,然后群聊开始的时候,我可以直接选平台,也可以直接选角色。角色的管理还是在系统设置的"角色管理"中进行。


为了实现上面的需求,角色功能需要升级:


- 除了可以设置提示词之外,还得能**选择平台和模型**

- 另外还能**设置头像**

- 如果设置了头像,群聊的时候就显示自定义头像;如果没有设置头像,就用对应模型平台的 logo 作为头像


我的需求大概是这样。说说你对这个需求的理解,不急着写代码


下面是它的分析结果:


Kimi Beta内测模型实测,提升明显!


很明显,它在理解需求的时候已经阅读了代码,并且给了非常清晰的思路。这个思路比很多模型都要清晰。


同时也提出了几个需要确认的点:


Kimi Beta内测模型实测,提升明显!


因为上面很多业务它已经理清楚了,所以这里问的问题不多。


但是问到了一个很关键的问题,就是平台配置里的角色和系统提示词要不要保留。


这个是隐藏考点,它直接就发现了,而且询问我。


这对它来说就非常有优势了。因为问我了,最终返工的可能性就很小。


这次的开发过程日志是非常多的,我就不全部呈现了。


我们直接看结果。


先来看角色管理功能:


Kimi Beta内测模型实测,提升明显!


这一部分几乎没有任何问题。平台、模型、头像上传全部加上了。


添加角色,编辑角色,删除角色全部正常。


另外角色列表里也附带了平台和模型,这一点细节是非常好的。


群聊创建:


Kimi Beta内测模型实测,提升明显!


这部分都做到了,没啥问题,唯一的问题就是平台和角色互斥这一点没做到。因为它分析需求的时候没想到,我也故意不提。更聪明的模型会想到并询问我,然后就不会做错了。


群聊对话:


Kimi Beta内测模型实测,提升明显!


对话逻辑没有任何问题。但是由于平台和角色没有做互斥,导致聊天界面既有平台,又有角色,非常混乱。


另外一个小细节是,它没有设置角色的默认头像。我在需求中提到了,如果角色头像没有设置,可以用平台 Logo 作为默认头像。


说实话,这个完成度已经很高了,相比Kimi K2.5也是非常大的提升。


具体可以参考这篇《MiniMax 和 Kimi 都是人才,“吊打” Opus 4.6


Kimi K2.5 当时有一个大 Bug


添加角色的时候选择了平台,添加完成之后,平台和模型信息根本没做持久化。


另外,角色编辑功能点了没有任何反应。


导致后面的功能全部无法跑通!


目前整个逻辑是能跑通的,只是有一两个小细节没有做好。这个成绩已经跑赢大部分国产模型了,比 MiniMax 肯定是好很多了。


从这个例子看,和 GLM5 已经不相上下。


当然,所有大模型都存在抽卡概率,这个我们是没法杜绝的!


我天天夸 Opus 4.6,有些人觉得我针对国产模型。


其实并不是,我只针对虚假宣传!我只依据事实!


只要国产模型表现好,我就会夸!


我的逻辑很简单:


测试结果,决定我的标题和态度。


当然,如果看到有人“吹牛逼”,我就会把它“吹爆”!


文章来自于"甲维斯C",作者 "Jarvis"。

关键词: AI新闻 , kimi , Kimi Beta , 月之暗面
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0