小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度
8066点击    2025-11-13 10:07

还记得今年上半年小红书团队推出的DeepEyes吗?


是的,就是那款能像人一样「放大图片细节找线索」,基本实现了类似o3「用图像思考」的多模态模型。


如今,更强大的版本——DeepEyesV2,重磅发布。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


先说结论:DeepEyesV2不仅延续了DeepEyes的视觉推理优势,更突破性地实现了「代码执行+网页搜索+图像操作」的全工具协同,从「会看细节」进化为「能主动解决复杂问题的智能体」。


下面详细展开——


多工具协同的多模态推理


现有的多模态大模型虽然能够理解文本和图像等多种信息,但是这些模型更像「信息解读器」——只能被动感知信息,却不能主动调用外部工具来解决问题。


因此,受限于两大痛点:


痛点1:工具调用能力薄弱。


当你对着一张陌生植物的照片询问AI——「这是什么花?」


传统多模态模型要么完全不具备工具调用能力,只能依赖内部知识库进行基础理解;


要么,只能单一调用某类工具,无法形成组合策略。


比如,DeepEyes虽能通过裁剪工具实现图像细粒度感知,却因缺乏信息检索能力,无法仅凭内部知识确定花朵品种;


相比之下,MMSearchR1虽支持搜索,却因没有细粒度感知能力,常因「看不清图像细节」导致检索失败。


这种「单工具依赖」,让模型在面对复杂任务时束手无策。


痛点2:多能力协同缺失。


人类解决问题时,会自然串联「观察(感知)→查资料(搜索)→算结果(推理)」等步骤,但传统多模态模型却难以实现这种协同。


感知、搜索和推理往往是「各自为战」,只能完成其中1-2个步骤,难以像人类一样串联成完整解决方案。


DeepEyesV2如何解决这些痛点?


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


相比于之前的模型,DeepEyesV2通过多工具协同推理,可以解决真实场景中的复杂问题。


比如,当面对「根据图中股票走势图,计算该公司2024年4月4日9:30-16:00的跌幅,并对比同期Tootsie Roll Industries(TR)的跌幅。


而涉及到「判断谁更大」这一复杂问题时,DeepEyesV2则展现出强大的推理能力。


整体过程可以分为三步:


第一步:图像搜索,获取更多信息。


DeepEyesV2首先调用图像搜索,尝试获取关于股价的更多信息。


第二步:文本搜索,尝试获取股价。


由于图像搜索无法提供有效的信息,DeepEyesV2转而进行文本搜索,查询股价数据。


第三步:代码执行,API访问并计算。


文本搜索也无法提供当时的股价数据,DeepEyesV2选择生成代码,通过API访问雅虎金融获取股价数据,并进行数值计算,得到最后的结果。


通过多次搜索、代码执行以及复杂推理,DeepEyesV2最终成功解答这一复杂问题。


值得注意的是,通过代码访问API的行为在团队的训练数据中并不存在,但是DeepEyesV2通过强化学习自主获得了这一技能。


DeepEyesV2


模型细节


与DeepEyes类似,DeepEyesV2是一个具有智能体特性的多模态模型,但它的工具使用能力得到了巨大扩展,不止于简单的裁剪操作。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


在DeepEyesV2中,程序化代码执行和网络检索作为外部工具可以在推理过程中被交互调用,并结合工具结果进行进一步推理。


给定图像输入及相应的用户查询后,DeepEyesV2首先会生成初步的推理计划,并明确判断该问题是可以通过内部推理直接解决,还是需要调用工具。


如果有必要使用工具,DeepEyesV2会生成可执行的Python代码或发出网络搜索查询。


代码执行在沙箱环境中进行,能够产生结构化输出,如经过处理的图像、数值测量结果、计算数组、图表或执行日志。


图像查询通过SerpAPI提交,返回排名前五的视觉匹配网页;文本查询返回五个最相关的网页,以及标题和片段……所有工具输出都会被添加到模型的上下文当中。


之后,DeepEyesV2会根据这些观察结果进一步思考,并可能计划进一步调用工具,重复这种推理—工具—整合循环,直至得出准确的答案。


简单来说,DeepEyesV2能够动态选择、组合和使用工具。


这种整合带来了三个主要优势:


1、通过可执行代码,拓展并增强了分析能力;


2、能够从网络检索多模态证据,实现主动且实时的知识获取;


3、在推理过程中,代码执行和搜索可以在单一轨迹中动态结合,而非作为孤立的模块存在,提高了工具调用的灵活性。


这些特性共同使DeepEyesV2成为一个更通用、可靠且可扩展的多模态推理框架。


探索实验


DeepEyes通过强化学习,就可以激发出模型的图像思考能力,因此团队参考DeepEyes的方式,在Qwen2.5-VL-7B上进行了探索实验。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


通过研究是否可以通过强化学习让模型直接获得更加复杂的工具使用能力,团队观察到两个关键问题。


问题1:早期工具探索「有心无力」,代码执行率低。


在训练初期,模型虽会生成Python代码调用图像裁剪、数值计算工具,但输出的代码大多存在语法错误或逻辑漏洞,导致代码执行成功率低。


随着训练进行,模型逐渐放弃代码生成,最终只收敛到生成简短的推理链,绕过了工具使用。


问题2:「奖励黑客」现象,模型用「无效操作」骗取奖励。


为了改善工具调用效果,团队引入DeepEyes中验证有效的「工具使用奖励机制」,只要模型生成代码,就额外给予奖励。


初期确实看到了效果,代码执行成功率一度提升。


但在训练后期,模型开始「投机取巧」,只输出一个只有无意义注释的代码块,从而来骗取额外的奖励,陷入「奖励黑客」(Reward Hacking)的陷阱。


通过探索实验,团队发现,现有的多模态大模型由于自身能力的不足,无法仅通过直接的强化学习来可靠地学习到复杂的工具使用,也说明了冷启动的重要性。


两阶段训练


因此,团队采用了「冷启动+强化学习」两阶段训练策略,让模型从「会用工具」稳步升级到「善用工具」。


阶段一:冷启动—打基础


通过高质量数据集为模型打基础」,让其掌握工具调用的基本逻辑。团队精心筛选了四类数据:


  • 感知类数据:需用图像裁剪、标记工具解决的问题。
  • 推理类数据:需用代码计算工具解决的数学问题。
  • 搜索类数据:需用联网工具解决的问题。
  • CoT数据:纯文本的推理CoT数据。


同时,数据还经过两层严格过滤:


1、难度过滤,只保留基础模型无法解决的问题;


2、工具收益过滤,确保工具调用能显著提升答案准确率。


阶段二:强化学习—精优化


在冷启动基础上,通过「准确率+格式规范」双奖励机制优化工具调用策略。


与传统复杂奖励设计不同,DeepEyesV2仅用两个简单奖励:


1、准确率奖励,根据最终答案与标准答案的匹配度打分;


2、格式奖励,对代码报错、搜索关键词无效等格式问题进行惩罚。


RealX-Bench


现有的评测集,往往只能测试模型的单一能力(比如看图识物、数学计算),但真实世界的问题需要「多能力协同」。


为此,团队构建了全新基准RealX-Bench,包含300个真实场景问题,覆盖日常生活、媒体、体育、知识、游戏五大领域。


团队从真实场景中收集问题并改写,使得问题符合真实场景的需求,且很多问题都需要多个能力的结合才能解决。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


准确率远超开源模型


团队首先在RealX-Bench上对现有模型和DeepEyesV2,进行了评估。


测试显示,即使是最先进的通用模型,在RealX-Bench上的准确率也不足50%,而DeepEyesV2凭借工具协同能力,准确率上表现远超开源模型,尤其是在需要多能力整合的任务上不表现突出。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


此外,团队还在真实世界理解、数学推理、搜索任务上进行了评估。


结果显示:和现有的模型相比,DeepEyesV2取得了巨大的性能提升,这证明了工具调用的重要性。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


深度剖析:数据消融与工具偏好


在这之后,团队进一步通过多组消融实验,系统探究了不同数据类型对模型工具使用能力的影响。


先来看看冷启动数据。这一部分的核心目标是让模型掌握「基础工具使用逻辑」。


团队将冷启动数据分为三类——感知型、推理型、CoT型,并通过消融实验验证各类数据的作用。


仅用感知型数据,模型在真实世界感知任务上准确率有明显提升,但在数学推理上准确率几乎无提升。


这说明感知数据能让模型熟练掌握「图像裁剪、区域标记」等视觉工具,但无法迁移到需要代码计算的推理任务,就像学会用放大镜看细节,却不会用计算器算数值。


仅用推理型数据,模型在数学推理任务上准确率有所提升,但在真实世界感知任务上准确率有所下降。


团队分析发现,推理任务需要「代码生成+逻辑验证」的复杂工具使用模式,单一推理数据缺乏「视觉感知→工具调用」的衔接训练,导致模型丢失了感知能力。


相比之下,当在感知+推理数据基础上加入「CoT数据」后,模型在理解和推理任务上都有明显提升。


这是因为,CoT数据强化了模型的推理能力,从而促进了模型的复杂工具调用能力。


因此最优的组合,还是——「感知+推理+CoT」。


三类数据结合后,模型在感知和推理测试集上均实现最优表现,这证明多样化且包含复杂推理的冷启动数据才能为模型打下「多工具协同」的基础。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


此后,团队进一步探究强化学习数据的影响,发现只有多样化的数据,才能有效地提高模型的工具调用能力。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


冷启动让模型「知道用什么工具」,而强化学习则让模型「懂得何时用工具」。


团队通过对比冷启动后与RL后的工具使用行为,发现RL不仅优化了工具调用的「准确性」,更让模型形成了任务自适应的工具使用模式——


这种「按需调用」智能,正是DeepEyesV2区别于传统模型的核心特征。


团队分析了模型在不同任务上的工具使用分布,发现冷启动后模型已具备初步的「任务-工具匹配」逻辑,而RL进一步强化了这种关联,并推动「跨工具组合」。


DeepEyesV2对于不同的任务,体现出明显的工具偏好。


对于真实世界感知任务,模型偏向使用裁剪来获取细粒度的视觉细节,对于OCR任务,DeepEyesV2还会执行标记和数值计算,在图表相关的任务中,模型会涉及更多的算数计算。


然而在数学推理任务上,数学计算占主导地位,在搜索相关任务中,模型主要使用搜索工具。


此外,团队通过比较强化学习前后的行为,团队观察到明显的变化。


在强化学习之后,模型开始倾向于执行更多的数值运算,并在搜索任务中也开始将图像处理工具与搜索相结合,表明强化学习有助于模型强化了跨工具的协同。


小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度


冷启动阶段,模型存在过度调用工具的问题,90%以上的任务都会调用工具,导致推理效率低下。


而强化学习后,工具调用率显著下降,表明模型学会了自适应推理,只有当使用工具更加有利时,才会调用工具,这有效提高了推理的效率。


此外,团队还追踪了强化学习训练过程中工具调用次数、响应长度、奖励值的动态变化。


团队发现,输出长度在不断下降,且工具调用的平均次数也在逐步下降,但是工具调用的方差仍然很大。


这说明,模型并不是简单地收敛到固定的工具调用次数(比如,每个问题调用一次工具)


相反,模型学会了自适应思考,只在必要的时候有选择地调用工具。


在面对复杂问题时,工具调用次数仍然很高,说明DeepEyesV2能够根据任务难度动态调整工具调用策略,体现出真正的自适应推理能力。


结语


综上所述,团队从训练、数据集设计和评估的角度,探索了如何构建能够主动调用工具并将其融入推理过程的智能体多模态模型。


团队的分析揭示了DeepEyesV2具有任务相关的工具使用行为,而强化学习,则让模型学会更复杂、具有上下文感知的工具组合。


在感知、推理和搜索基准上进行的大量实验,则进一步证明了DeepEyesV2强大的推理能力,凸显了将工具调用与推理相结合的优势。


论文地址:

https://arxiv.org/pdf/2511.05271

项目主页:

https://visual-agent.github.io/

GitHub:

https://github.com/Visual-Agent/DeepEyesV2


文章来自于“量子位”,作者 “小红书”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI