# 热门搜索 #
搜索
60亿AI独角兽Mistral祭出磁力链,首个多模态Pixtral 12B登场!但被大佬曝出评测造假
6572点击    2024-09-12 20:56

法国AI初创Mistral AI,又扔出一条磁力链炸场了。



这次,与以往不同的是,他们发布了首个多模态模型Pixtral 12B,集语言、视觉能力于一身。



这意味着,Mistral AI正式跨界MMML,开启多模态AI新时代,同时向OpenAI、Anthropic等劲敌发起挑战。


多模态Pixtral 12B,是基于文本模型Nemo 12B完成训练。


与GPT-4o、Claude类似,只需上传一张图、提供一个链接,模型就能根据提示回答问题。


它不仅能够识别复杂手写笔记,还能看懂数学公式、图表等等。


在多项基准测试(文本、指令跟随、多模态)中,新模型性能大幅超越Qwen2 7B、Phi-3 Vision开源模型。



Hugging Face技术负责人发现此处列举的Qwen的数据问题很大


相较于闭源模型,Pixtral 12B在图表问答、文档问答、视觉数学推理、大学水平多学科等基准中,性能碾压Claude3 Haiku、Gemini 1.5 8B。



除了大约24GB的磁力链,模型代码还可在HuggingFace、GitHub下载。(由社区开发者上传)



地址:https://huggingface.co/mistral-community/pixtral-12b-240910


值得一提的是,Mistral AI现场还请来了老黄坐镇。



手绘稿直出代码,现场Demo惊艳


Mistral AI在旧金山举办的首届AI峰会上,初次展示了Pixtral 12B的多模态能力。



现场,足以用震撼形容。


让它将一份科学报告转录为Markdown格式,可以看到图片中,包含了许多复杂的数学符号,还有公式。


Pixtral 12B通过OCR能力,精准地识别出所有的内容。



再来一个更复杂的手写稿,别说AI了,小编也有些看不清写的什么字。


没想到,这也难不倒它。



给它扔一张关于美国「风险投资交易密度分布」的图表,并将其总结成一份表。


模型以不同州/城市,以及交易数量、区位商(LQ),列出了非常清晰的表格。



再来看看,它如何去描述一张图像的。


上传一张风景图,然后询问「我们可以从中看到什么」?


Pixtral 12B先从各种动物近景描述,再延伸到背后建筑、基础设施,以及大树、天空云彩等。


整个讲述的过程,非常有逻辑。



在复杂图表方面,Pixtral 12B理解力也是一绝。


上传一张全球不同国家GDP图片,让它给出欧洲中GDP最高的5个国家。


模型根据绿色欧洲区域,总结给出了相应的答案。



不仅如此,它还可以解释科学报告中,图表中DNA结构的具体含义。



想要搭建一个网页,手绘一张草稿,传给模型。


它能看着图直出代码,一个网页HTML的设计分分钟就搞定了。



又或是,当你遇到一道数学推理难题,拍好照片上传给Pixtral 12B,便会得到解题步骤和答案。



外出餐饮小票,它也可以将其中信息提取成JSON格式。



这样一通看下来,一个120亿参数的小模型,竟具备了如此强大的图像识别、文本理解能力。


那么,它是如何训练而来?背后架构是什么?


模型架构


现场的介绍中,Pixtral 12B的架构如下图所示。


它包含了一个多模态Transformer解码器,还有视觉Transformer编码器,能够理解原生的图像和文档。



正如开头所述,新模型是基于Nemo 12B完成搭建,关于训练数据目前仍在保密中。


开发者关系主管Sophia Yang表示,「Pixtral 12B独特之处在于,能够原生支持任意数量、大小的图像」。



它能够快速处理小图像,还可以精准处理真实世界和高分辨率的图像。而且,扔出一个图文混杂的大型文档,也能信手拈来。



Pixtral 12B的上下文长度为128k。



根据初始测试者的分享,这个24GB模型架构共有40层,14336个隐藏维度,32个注意力头,用于广泛的计算处理。



在视觉方面,它还有一个专用的视觉编码器,可支持1024×1024图像分辨率,以及24个隐藏层用于高级图像处理。



然而,当Mistral最终通过API提供该模型时,可能会有所改变。


就性能来说,Pixtral 12B在多模态知识和推理基准(MMMU、MathVista)、多模态问答基准(ChatQA、DocVQA、VQAv2)上,完全碾压当前领先的同等参数的模型。


比如,Qwen2-VL、LLaVA-OV、Phi-3 Vision等。



而在指令跟随(多模态、文本)、文本理解(科学、数学、代码)基准上,Pixtral 12B表现也非常出色。



或许多模态模型对于我们来说,屡见不鲜,但Pixtral 12B对于Mistral来说是开创历史。


自去年成立以来,Mistral凭借开源媲美OpenAI等领先实验室大模型,一路走红得到AI社区的认可。



几个月前,它以60亿美金估值,完成6.4亿美元新一轮融资,并随之推出了一款GPT-4级别的模型——Mistral Large 2。


此外,他们在今年,还推出了一个专家混合模型Mixtral 8x22B,包含了一个编码模型Codestral,以及一个数学推理和科学发现的模型。



Mistral或许有实力,成为下一个OpenAI。


穿上皮夹克,和老黄炉边谈话


更让人惊喜的是,大会现场,还上演了经典「皮夹克帮」集结的一幕。


创始人Arthur Mensch穿上皮夹克和老黄坐在台前,开启了炉边谈话,一起探讨了未来AI和算力问题。



老黄表示,在英伟达,GPU的设计、性能、耗能等方面问题,仍将持续优化。


他们希望利用AI先去探索巨大设计空间的可能性,然后再进行收缩,最终专注于有前景的解决方案。


老黄还认为:推理在今天是一次性的,但在未来不会是这样。为了实现这一点,还需把推理速度提高到一个数量级。


因为,利用GPU做推理面临着显著的困难,英伟达90%的工程师都投在了推理,而非训练中。



当然,英伟达对推理技术架构的探索,仍在继续。老黄希望NVLink能够实现低延迟高吞吐量的推理设计。


对于AI未来的探索,老黄表示自己最喜欢的AI应用,便是创建数字人。


他希望,未来公司会有数百万个智能体数字员工,可以自主相互交流,运营业务。



此外,他还讨论了英伟达在「类人机器人」领域的大量工作。


而它的发展,受到了老黄所言的「3台计算机问题」的瓶颈制约——


第一台用于训练多模态模型,第二台用于精确物理模拟和生成合成数据(NVIDIA Omniverse),第三台是机器人体内的计算机(即将推出的NVIDIA Thor)。



最后,老黄还回顾了英伟达历史,「在1993年成立之时,我们在GPU领域还没有竞争对手,到1994年有10个,1995年有50个,然后有100个,竞争对手迅速增加」。


在竞争这么激烈领域中,英伟达能够有所成,一定程度上,可以归咎于你所做的事情与做这些事情的原因不同。


英伟达是PC游戏行业的最大推动者,他们通过创建计算平台、生态系统来创造一个新市场,使之成为「家庭的一部分」。


他们最先在游戏领域做到了这一点,然后是科学计算,现在是AI。



大佬发现「华点」:又来一个评测造假的?


前两天,所谓的「开源新王」Reflection 70B才刚刚深陷Benchmark造假争议。


如今,相似的剧情再次上演。



随着峰会现场的照片大范围流出,Hugging Face技术负责人Philipp Schmid也在第一时间发现,Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。



把数据补全到柱状图中后可以看道,Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。



也就是说,Mistral AI的首个多模态模型,被一个参数量小了近42%的模型,吊打了!



此外,还有网友指出,别说数据有问题,他们连模型的名字好像都没写对……



文章来源于“新智元”,作者“新智元


关键词: AI , Mistral , 大模型 , Pixtral 12B
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/