拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?
5943点击    2025-12-24 15:01

在迈向通用人工智能的道路上,我们一直在思考一个问题:现有的 Image Editing Agent,真的「懂」修图吗?


大多数基于 LLM/VLM 的智能体,本质上更像是一个「盲目的指挥官」。它们能流利地写出修图代码或调用 API,但在按下回车键之前,它们看不见画布上的变化,也无法像人类设计师那样,盯着屏幕皱眉说:「这张对比度拉太高了,得往回收到一点。」这种感知与决策的割裂,直接导致了「指令幻觉」,或者说模型在进行盲目的「脑补」。由于缺乏视觉反馈,模型往往凭空想象下一步操作,导致结果与用户的初衷南辕北辙。


此外,在传统强化学习中经常依赖于静态的奖励模型。随着模型的不断训练,它很容易学会如何「讨好」这个固定的打分器,导致 Reward Hacking——即分数很高,但审美并没有真正提升。


为了打破这一僵局,JarvisEvo 应运而生。它不仅仅是一个连接 Adobe Lightroom 的自动化工具使用者,更是一次大胆的探索:探索 Agent 如何通过「内省」,真正实现自我进化。


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


  • 论文标题:JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
  • 论文地址:  https://www.arxiv.org/pdf/2511.23002
  • 项目主页: https://jarvisevo.vercel.app/
  • Github:https://github.com/LYL1015/JarvisEvo
  • Huggingface Daily Paper:https://huggingface.co/papers/2511.23002
  • 作者团队来自腾讯混元和厦门大学:Yunlong Lin*, Linqing Wang*, Kunjie Lin*, Zixu Lin*, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding, Chunyu Wang†, Qinglin Lu†


核心范式转移:

从「执行者」到「思考者」


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


JarvisEvo 的核心哲学在于模仿人类专家的慢思考模式。一个资深修图师的工作流永远是闭环的:观察原图 -> 构思 -> 尝试调整 -> 观察结果 -> 评估/反思 -> 再调整。我们将这一直觉转化为三大技术支柱:


iMCoT:让思维链「长出眼睛」


传统的思维链 (CoT) 是纯文本的独角戏。JarvisEvo 引入了 iMCoT (Interleaved Multimodal Chain-of-Thought),将视觉反馈强行插入推理循环。


  • 打破黑盒:每执行一步工具(例如调整色温),系统立刻生成中间渲染图。
  • 动态规划:模型不再是一次性生成所有步骤,而是基于当前的视觉状态来决定下一步。它能「看到」上一具体操作带来的过曝或偏色,并即时修正。


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


SEPO:左手画图,右手打分


这是 JarvisEvo 最「性感」的设计。既然外部奖励模型容易被 Hack,那为什么不让 Agent 自己训练自己的审美?我们提出了 SEPO (Synergistic Editor-Evaluator Policy Optimization),让模型在训练中分饰两角:


  • 编辑者 (Editor):负责干活,目标是修出好图。
  • 评估者 (Evaluator):负责挑刺,目标是精准打分。


这就形成了一种类似 GAN 但更复杂的协同进化:编辑者为了拿高分,必须提升修图质量;评估者为了不被人类专家「打脸」,必须提升鉴赏能力。为了防止模型「作弊」(即模型发现只要生成「100 分」的文本就能降低 Loss),我们设计了 SLM (Selective Loss Masking) 机制。这相当于老师在改卷时,遮住了学生自己写的「我给自己打满分」那一行,迫使学生只能靠前面的解题过程(推理和工具使用)来真正赢得高分。


On-Policy Reflection:从错误中提炼智慧


JarvisEvo 的第三个杀手锏是它的反思机制


在 Stage 2 的训练中,我们构建了一个自动化流水线:当模型偶然修出了一张好图(高分轨迹),而之前某次尝试失败了(低分轨迹),系统会立刻捕捉这组对比。


通过引入「导师模型」(如 Gemini/GPT-4),我们让系统分析:「刚才那次为什么失败?是因为白平衡参数太激进了吗?


这种生成的反思数据 (Reflection Data) 被用于第三阶段的微调。最终,JarvisEvo 习得的不仅是「如何修图」,更是「当修坏了时如何自救」。


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


硬核工程:ArtEdit 数据集与训练流水线


为了支撑这套逻辑,我们没有使用通用的微调数据,而是从零构建了 ArtEdit: 


  • 170K 专业样本:覆盖从风光到人像的 10 大类摄影场景。
  • 全工具链覆盖:完美映射 Adobe Lightroom 的 200+ 个参数。
  • 双视角数据:既有修图轨迹 (ArtEdit-Lr),也有人类专家的审美评分 (ArtEdit-Eval)。


我们的训练并非一蹴而就,而是采用了类似人类学习的三阶段课程 (Curriculum Learning):


  • 冷启动 (SFT):先学会工具怎么用,语法怎么写。
  • 协同进化 (RL/SEPO):扔掉标准答案,在自我探索中通过「左右互搏」提升上限。
  • 反思微调 (Reflection):针对易错点进行特训,学会自我纠错。


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


实验结果


ArtEdit-Bench 评测结果


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


在严苛的 ArtEdit-Bench 评测中,JarvisEvo 展现了统治力:


  • 内容保真度:相比商业模型 Nano-Banana,L1/L2 误差降低了 44.96%。这意味着它在修图时不会破坏原图的画质细节。
  • 人类偏好:在盲测中,JarvisEvo 取得了 49% 的胜率,远超 Nano-Banana 的 28%
  • 审美对齐:更有趣的是,作为「裁判」,JarvisEvo 对图片质量的打分与人类专家的相关性 (SRCC 0.7243) 甚至超过了 Gemini-2.5-Flash。


视觉效果


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


在视觉效果上,JarvisEvo 专为细粒度专业调色而生。得益于其深度的意图理解、多模态推理以及独特的自我反思闭环,JarvisEvo 在处理复杂修图需求时,展现出了超越当前所有商业及开源 AIGC 模型的显著优势。


JarvisEvo vs. OpenAI X Adobe PhotoShop


拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?


出于好奇跑了一下 OpenAI 的新功能,虽然能调 PS,但感觉更像是 Workflow 的搭建,缺乏垂直数据的 Training。在我们的 Benchmark 上,论指令遵循修图审美,目前的 JarvisEvo 表现明显还是要更好很多。


结语:

不仅是修图


JarvisEvo 的意义远超图像编辑本身。 它验证了一种「Actor-Critic 协同进化」的通用范式。这种让模型在内部建立「自我批评家」,并通过多模态反馈不断修正行动路径的方法,完全可以复用到复杂代码生成、数学推理、机器人控制等需要长程规划的领域。


我们正在见证 Agent 从「听话的执行者」向「会反思的创作者」的惊险一跃。而 JarvisEvo,刚刚迈出了这一步。


文章来自于“机器之心”,作者 “机器之心”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner