阿里开源首个视觉推理模型,击败GPT-4o,网页一度404

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
阿里开源首个视觉推理模型,击败GPT-4o,网页一度404
10238点击    2024-12-26 10:43

过年关啦!阿里送上了今年最后一份礼物——


“眼睛”模型QVQ,其中V代表视觉。它只需读取图像和指令,就可以开始思考。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


I’m watching you!


据介绍,这可能是全球第一个视觉推理模型,也可以把它理解为上个月开源的阿里版o1模型QwQ的视觉版本。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


可以解决数物化生等各领域问题。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


读梗图、数鸭子也不在话下。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


目前该模型处于实验阶段,开放测试。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


结果可能因为访问过多,网页一度还404了。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


从性能表现上看,QVQ在MMMU 上的得分为 70.3,这一结果超过GPT-4o、Claude 3.5 Sonnet,但比o1模型还差了那么一点。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


阿里开源首个视觉推理模型


官方给了几个演示Demo,让咱们好好感知一下它的推理能力。


首先来看这道数学题。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


解题思路如下:


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


再来个几何题,算算这个沙发的面积。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


它的推理过程如下:


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


高中化学题:图片中的滤液E是什么化学物质?


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


它的答案是:硫酸亚铁溶液。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


他们在四个数据集对眼睛模型QVQ-72B-Preview进行了评估,包括MMMU、MathVista、MathVision、OlympiadBench,主要考察数学多模态推理以及综合理解推理方面的能力。


QVQ-72B-Preview在 MMMU 基准测试中取得了70.3分,大大超过了其前身 Qwen2-VL-72B-Instruct。


此外,在其余三个以数学和科学问题为重点的基准测试中,该模型也表现出了卓越的性能,缩小了与o1模型之间的差距。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


不过目前该模型属于是团队的实验研究模型,不是特别稳定,有几个限制需要注意。


  • 语言混合和代码切换:该模型可能会意外地混合语言或在语言之间切换,从而影响回答的清晰度。
  • 递归推理:模型可能会陷入循环逻辑模式,产生冗长的回复而无法得出结论。
  • 安全和道德方面的考虑:该模型需要加强安全措施,以确保性能可靠和安全,用户在部署时应谨慎。
  • 性能和基准限制:尽管该模型在视觉推理方面有所改进,但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,从而导致幻觉。


好好预防针打了,那咱们浅浅实测一波。


比如这道考验谷歌版o1的题目:


如何利用这些数字加起来等于30?


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


结果它识别出来了这几个球对应的数字,没有意识到9号球可以翻转成6号球,然后就陷入无尽的思考之中。。。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404


在blog最后,他们也透露了接下来的目标——增强视觉语言基础模型,使其具备基于视觉信息进行深度思考和推理的高级能力。


把时间拉长,他们计划是将更多的模态整合到统一的模型中,能够应对复杂的挑战并参与科学探索。


(模型尽头是AI For Science?)


参考链接:

[1]https://x.com/Alibaba_Qwen/status/1871602879972405626

[2]https://qwenlm.github.io/blog/qvq-72b-preview/


文章来自于“量子位”,作者“白小交”。


阿里开源首个视觉推理模型,击败GPT-4o,网页一度404

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/