ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
最强端侧模型,面壁MiniCPM位列SuperClue榜单表现前列
3758点击    2024-03-03 09:43

随着终端侧 AI 变革席卷全球,「小而强」的端侧大模型,成为行业主流玩家的必争之地。


面壁 MiniCPM,这颗超级能打的「小钢炮」,凭借独特的上千次「模型沙盒」实验技术路径,超越全球一众轻量高性能的标杆之作,成为小尺寸极限竞技场中的大模型王者:


  • 以 2B 规模、1T tokens,和来自「欧洲版 OpenAI」的 Mistral-7B 一较高下(图1);

  • 相较晚一个月发布、来自谷歌的新星 Gemma 模型,2B 量级整体领先,7B 量级多项超越(图2);

  • 在刚刚放榜的 SuperCLUE 评测中,以「以小博大」亮眼表现,超越智谱的 ChatGLM3-6B, Meta 的 Llama2-13B-Chat, 谷歌的 Gemma-7b-it 等更大规模明星模型(图3)。


此外,还将高效率与低成本发挥至极致——支持 CPU 推理,170 万 tokens 推理成本仅 1 元。目前,已支持 MLC-LLM, LLMFarm,FastLLM 等全球主流推理框架部署。



图1:模型性能同体量最强,越级比肩 Mistral-7B, Gemma-7B, Llama2-13B


图中模型评测均采用 UltraEval评测框架。选择常用的评测任务:C-Eval,CMMLU,BBH,MMLU,HumanEval,MBPP,GSM8K,MATH,HellaSwag,BoolQ,PIQA,WinoGrande,ARC-e,ARC-c,从不同的能力维度检验模型的能力,最终取所有任务的均值作为最终结果进行展示。



图2:面壁 MiniCPM 相较谷歌 Gemma


- 2B量级整体领先,英文均分领先(MiniCPM-2B 56.6 VS Gemma-2B 46.4) 


- 7B 量级多项超越,中文均分领先(MiniCPM-2B 51.1 VS Gemma-7B 43.6), 标志性指标领先(HumanEval, GSM8K, ARC-c/e)



图3:SuperCLUE 2月榜单,取得 7B及以下量级领先优势 


SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准。为更好地反映国内大模型与国际领先大模型间的差距和优势,SuperCLUE选取了多个国内外有代表性的可用模型进行评测,同时由于其数据集保密性高,减少了模型训练数据混入评测数据的可能性。


MiniCPM 受到全球开源社区广泛欢迎


MiniCPM一经发布,即问鼎 Github Trending Top1 与 HuggingFace Trending Top3,不到 1 月即在 Github 上斩获 3000 星标,模型下载量高达 27 万。


在社区引发热烈讨论,吸引了一众优秀开发者实践:



同时受到众多科技媒体赞誉(左滑查看更多):



文章来自于微信公众号 “OpenBMB开源社区”