32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
8813点击    2025-03-25 11:47

就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了——


发布Qwen2.5-VL-32B-Instruct


此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。


这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。


同时经过强化学习优化,在三个方面改进显著:


  • 回答更符合人类偏好;
  • 拥有更强的数学推理能力;
  • 在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力。


对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基准上,Qwen2.5-VL-32B甚至超过了72B。


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


举个栗子,比如根据一张交通指示牌照片,Qwen2.5-VL-32B就能做如下精细的图像理解和推理:


我正在这条路上驾驶一辆大卡车,现在12点了。我能在13点之前到达110公里远的地方吗?


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析,然后分步骤条理清晰推算出正确答案:


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


模型已经开源,尽管自己前往实测~


Qwen2.5-VL-32B更多表现示例


官方刚刚发布的技术博客中也放出了更多展示示例。


数学推理能力上,几何体分析也不在话下:


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


同样是先有问题分析环节,然后再分四个小步骤推理正确答案:


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


下面这种复杂难题也能解:


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


能够依次类推,归纳出构造规律:


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


像下面这种图片理解就更不在话下了:


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


多轮深度提问也可以:


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


模型开源,已能实测


现在,阿里已将Qwen2.5-VL-32B-Instruct放在了Hugging Face上。


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


在Qwen Chat上就能直接体验Qwen2.5-VL-32B,感兴趣的童鞋可以试试。


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


动作快的网友已经开始在MLX Community运行了:


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


在Hacker News上,网友也就DeepSeek和Qwen的举动进行了新一轮热烈讨论。网友纷纷表示:


开源赢了,奥特曼错了。


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


值得一提的是,春节期间,DeepSeek曾与阿里通义千问Qwen多次几乎同时发布新模型,这一次又双叒叕赶一块去了。


杭州,原来真的是商量着一起发???


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强


参考链接:

[1]https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

[2]https://x.com/Alibaba_Qwen/status/1904227859616641534

[3]https://news.ycombinator.com/item?id=43464068


文章来自于“量子位”,作者“西风”。


32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file