Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
6639点击    2025-04-10 16:25

刚刚,Kimi团队上新了!


开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


按照Kimi官方的说法,其关键亮点如下:


  • 都是基于MoE架构,总参数为16B,但推理时仅激活2.8B
  • 具备强大的多模态推理能力(媲美参数大10倍的模型)Agent能力
  • 支持128K上下文窗口;
  • 采用相对较为宽松的MIT许可证


如图所示,和Qwen2.5-VL、Gemma-3等前沿开源VLM相比,Kimi-VL-Thinking仅使用2.8B激活参数即可实现强大的多模态推理。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


同时在一些重要基准测试中,Kimi新模型“以小博大”,超越了GPT-4o等规模更大的模型。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


目前两款模型均已上架Hugging Face,分为Instruct基础版和Thinking推理版。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


网友们纷纷表示,新的标杆再次诞生!


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


多模态和推理双双拿捏


话不多说,我们直接看Kimi新模型的具体玩法和效果。


视觉理解与推理


首先,作为一款通用的VLM模型,Kimi-VL具备强大的视觉理解和推理能力


给它一份手稿,要求它通过逐步推理来确认手稿属于谁,以及所记录的内容。


可以看到,Kimi-VL通过分析手稿的笔迹、内容、语言等特征,推断出手稿可能属于爱因斯坦,理由是这些内容与引力场方程有关,这与爱因斯坦对广义相对论的贡献有关。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


又或者只提供一张图片,让Kimi-VL来判断城市地标建筑、识别游戏场景等。


比如第2个例子中,它成功识别出图片中的穹顶建筑为多伦多的罗杰斯中心(Rogers Centre),同时描述了其特征和用途。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


除此之外,Kimi-VL也能被用来解答高难度几何数学题。


还是仅需一个上传图片的动作,它就能将复杂数学公式转换为LaTeX代码,并以正确格式输出。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


OCR与文本处理


当然,Kimi-VL对多模态数据的正确理解还离不开一项关键能力——OCR字符识别


在OCRBench基准测试中,其得分为867,属于SOTA水平。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


除了识别数学公式,它还能识别金融表格(以Markdown表格格式输出)和手写作文。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


甚至还能从长达一小时的视频课程中捕捉和理解关键细节。


比如提供视频中的某句话“授人以鱼不如授人以渔”,要求它找到出处并进一步解读。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


智能体任务与交互


值得关注的是,Kimi-VL还在多轮Agent交互任务(例如OSWorld)中表现出色,取得了媲美旗舰模型的SOTA结果。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


比如在Chrome浏览器中,要求它自动启用“Do Not Track”功能来保护用户隐私。


可以看到,通过一步步思考,Kimi-VL对每个屏幕进行解读,识别相关的用户界面元素,并通过清晰的思路、操作和API调用按顺序执行相应的操作。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


背后技术原理


那么接下来的问题是,怎么做到的?


来看Kimi此次公开的技术报告。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


首先,在模型架构上,Kimi-VL和Kimi-VL-Thinking主要由三大部分构成:


  • MoE专家混合语言模型(之前发布的Moonlight-16B-A3B)
  • 原生分辨率视觉编码器(MoonViT,基于SigLIP-SO-400M微调)
  • 一个多层感知机(MLP)投影器。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


模型具体训练过程如下:


数据准备


这第一步,团队构建了三大类别数据集:


1、预训练数据。精选来自六个类别的高质量数据,包括字幕数据、图像文本交织数据、OCR数据、知识数据、视频数据和智能体数据。通过过滤、合成和去重等操作,控制数据质量。


2、指令数据。用于增强模型的对话和指令遵循能力。对于非推理任务,通过人工标注构建种子数据集,训练种子模型后生成并筛选多轮响应;对于推理任务,利用拒绝采样的方式扩展数据集,确保数据多样性和准确性。


3、推理数据。通过类似拒绝采样和提示工程的方法,收集和合成高质量的长思维链数据。


预训练:主要提升多模态能力


然后开始预训练,这一阶段共消耗4.4T tokens,主要目标是提高模型的多模态理解能力。


概括而言,这一过程包含4个步骤:先独立进行ViT训练,以建立原生分辨率视觉编码器;随后进行三个联合训练阶段(预训练、冷却、长上下文激活)。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


后训练:主要提升长思维链推理能力


接着进行后训练,通过在32K和128K上下文中进行的两个阶段的联合监督微调、长思维链监督微调及强化学习,团队进一步提升了模型的长期思考能力


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


更多细节感兴趣可以查阅原论文。


One More Thing


有一说一,相比于DeepSeek、Qwen等国内竞争对手,Kimi最近一个月实在有点过于安静了。


从官方公众号来看,最新一条发布还是在2月份。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


在这股平静之下,网友们开始猜测:


Kimi即将有大动作了?


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


结合更多消息,目前大家比较认可的推测是K1.6模型即将到来。


就在3月,基于Kimi-K1.6的数学模型突然曝光,在编程基准测试LiveCodeBench中拿下第一,超越o3、DeepSeek-R1等模型。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B


当然,也欢迎更多知情者在评论区爆料(doge)。


论文:

https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf

模型开源地址:

https://huggingface.co/collections/moonshotai/kimi-vl-a3b-67f67b6ac91d3b03d382dd85


参考链接:

[1]https://x.com/Kimi_Moonshot/status/1910035354570371082

[2]https://x.com/iamfakhrealam/status/1909559812498886813


文章来自于“量子位”,作者“一水”。


Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

关键词: AI , Kimi 16B , Kimi , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner