60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

9063点击 2024-09-12 20:56

法国AI初创Mistral AI，又扔出一条磁力链炸场了。

这次，与以往不同的是，他们发布了首个多模态模型Pixtral 12B，集语言、视觉能力于一身。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

这意味着，Mistral AI正式跨界MMML，开启多模态AI新时代，同时向OpenAI、Anthropic等劲敌发起挑战。

多模态Pixtral 12B，是基于文本模型Nemo 12B完成训练。

与GPT-4o、Claude类似，只需上传一张图、提供一个链接，模型就能根据提示回答问题。

它不仅能够识别复杂手写笔记，还能看懂数学公式、图表等等。

在多项基准测试（文本、指令跟随、多模态）中，新模型性能大幅超越Qwen2 7B、Phi-3 Vision开源模型。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

Hugging Face技术负责人发现此处列举的Qwen的数据问题很大

相较于闭源模型，Pixtral 12B在图表问答、文档问答、视觉数学推理、大学水平多学科等基准中，性能碾压Claude3 Haiku、Gemini 1.5 8B。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

除了大约24GB的磁力链，模型代码还可在HuggingFace、GitHub下载。（由社区开发者上传）

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

地址：https://huggingface.co/mistral-community/pixtral-12b-240910

值得一提的是，Mistral AI现场还请来了老黄坐镇。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

手绘稿直出代码，现场Demo惊艳

Mistral AI在旧金山举办的首届AI峰会上，初次展示了Pixtral 12B的多模态能力。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

现场，足以用震撼形容。

让它将一份科学报告转录为Markdown格式，可以看到图片中，包含了许多复杂的数学符号，还有公式。

Pixtral 12B通过OCR能力，精准地识别出所有的内容。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

再来一个更复杂的手写稿，别说AI了，小编也有些看不清写的什么字。

没想到，这也难不倒它。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

给它扔一张关于美国「风险投资交易密度分布」的图表，并将其总结成一份表。

模型以不同州/城市，以及交易数量、区位商（LQ），列出了非常清晰的表格。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

再来看看，它如何去描述一张图像的。

上传一张风景图，然后询问「我们可以从中看到什么」？

Pixtral 12B先从各种动物近景描述，再延伸到背后建筑、基础设施，以及大树、天空云彩等。

整个讲述的过程，非常有逻辑。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

在复杂图表方面，Pixtral 12B理解力也是一绝。

上传一张全球不同国家GDP图片，让它给出欧洲中GDP最高的5个国家。

模型根据绿色欧洲区域，总结给出了相应的答案。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

不仅如此，它还可以解释科学报告中，图表中DNA结构的具体含义。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

想要搭建一个网页，手绘一张草稿，传给模型。

它能看着图直出代码，一个网页HTML的设计分分钟就搞定了。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

又或是，当你遇到一道数学推理难题，拍好照片上传给Pixtral 12B，便会得到解题步骤和答案。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

外出餐饮小票，它也可以将其中信息提取成JSON格式。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

这样一通看下来，一个120亿参数的小模型，竟具备了如此强大的图像识别、文本理解能力。

那么，它是如何训练而来？背后架构是什么？

模型架构

现场的介绍中，Pixtral 12B的架构如下图所示。

它包含了一个多模态Transformer解码器，还有视觉Transformer编码器，能够理解原生的图像和文档。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

正如开头所述，新模型是基于Nemo 12B完成搭建，关于训练数据目前仍在保密中。

开发者关系主管Sophia Yang表示，「Pixtral 12B独特之处在于，能够原生支持任意数量、大小的图像」。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

它能够快速处理小图像，还可以精准处理真实世界和高分辨率的图像。而且，扔出一个图文混杂的大型文档，也能信手拈来。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

Pixtral 12B的上下文长度为128k。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

根据初始测试者的分享，这个24GB模型架构共有40层，14336个隐藏维度，32个注意力头，用于广泛的计算处理。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

在视觉方面，它还有一个专用的视觉编码器，可支持1024×1024图像分辨率，以及24个隐藏层用于高级图像处理。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

然而，当Mistral最终通过API提供该模型时，可能会有所改变。

就性能来说，Pixtral 12B在多模态知识和推理基准（MMMU、MathVista）、多模态问答基准（ChatQA、DocVQA、VQAv2）上，完全碾压当前领先的同等参数的模型。

比如，Qwen2-VL、LLaVA-OV、Phi-3 Vision等。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

而在指令跟随（多模态、文本）、文本理解（科学、数学、代码）基准上，Pixtral 12B表现也非常出色。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

或许多模态模型对于我们来说，屡见不鲜，但Pixtral 12B对于Mistral来说是开创历史。

自去年成立以来，Mistral凭借开源媲美OpenAI等领先实验室大模型，一路走红得到AI社区的认可。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

几个月前，它以60亿美金估值，完成6.4亿美元新一轮融资，并随之推出了一款GPT-4级别的模型——Mistral Large 2。

此外，他们在今年，还推出了一个专家混合模型Mixtral 8x22B，包含了一个编码模型Codestral，以及一个数学推理和科学发现的模型。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

Mistral或许有实力，成为下一个OpenAI。

穿上皮夹克，和老黄炉边谈话

更让人惊喜的是，大会现场，还上演了经典「皮夹克帮」集结的一幕。

创始人Arthur Mensch穿上皮夹克和老黄坐在台前，开启了炉边谈话，一起探讨了未来AI和算力问题。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

老黄表示，在英伟达，GPU的设计、性能、耗能等方面问题，仍将持续优化。

他们希望利用AI先去探索巨大设计空间的可能性，然后再进行收缩，最终专注于有前景的解决方案。

老黄还认为：推理在今天是一次性的，但在未来不会是这样。为了实现这一点，还需把推理速度提高到一个数量级。

因为，利用GPU做推理面临着显著的困难，英伟达90%的工程师都投在了推理，而非训练中。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

当然，英伟达对推理技术架构的探索，仍在继续。老黄希望NVLink能够实现低延迟高吞吐量的推理设计。

对于AI未来的探索，老黄表示自己最喜欢的AI应用，便是创建数字人。

他希望，未来公司会有数百万个智能体数字员工，可以自主相互交流，运营业务。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

此外，他还讨论了英伟达在「类人机器人」领域的大量工作。

而它的发展，受到了老黄所言的「3台计算机问题」的瓶颈制约——

第一台用于训练多模态模型，第二台用于精确物理模拟和生成合成数据（NVIDIA Omniverse），第三台是机器人体内的计算机（即将推出的NVIDIA Thor）。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

最后，老黄还回顾了英伟达历史，「在1993年成立之时，我们在GPU领域还没有竞争对手，到1994年有10个，1995年有50个，然后有100个，竞争对手迅速增加」。

在竞争这么激烈领域中，英伟达能够有所成，一定程度上，可以归咎于你所做的事情与做这些事情的原因不同。

英伟达是PC游戏行业的最大推动者，他们通过创建计算平台、生态系统来创造一个新市场，使之成为「家庭的一部分」。

他们最先在游戏领域做到了这一点，然后是科学计算，现在是AI。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

大佬发现「华点」：又来一个评测造假的？

前两天，所谓的「开源新王」Reflection 70B才刚刚深陷Benchmark造假争议。

如今，相似的剧情再次上演。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

随着峰会现场的照片大范围流出，Hugging Face技术负责人Philipp Schmid也在第一时间发现，Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

把数据补全到柱状图中后可以看道，Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

也就是说，Mistral AI的首个多模态模型，被一个参数量小了近42%的模型，吊打了！

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

此外，还有网友指出，别说数据有问题，他们连模型的名字好像都没写对……

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

文章来源于“新智元”，作者“新智元”

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场！但被大佬曝出评测造假

关键词: AI , Mistral , 大模型 , Pixtral 12B

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales