GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

6868点击 2025-04-09 17:37

GPT-4o图像生成架构被“破解”了！

最近一阵，“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红，人们随之好奇：

4o图像生成的架构底层逻辑到底是什么？GPT-4o究竟强在哪？存在哪些短板？

作为解答，北京大学、中山大学等多家科研机构共同推出GPT-ImgEval，首次系统评估了GPT-4o在图像生成上的真实表现。

这份量化评估基准不仅囊括了生成质量、编辑能力和知识推理，还尝试揭示GPT-4o背后的可能架构，还探讨了它生成图像的可检测性问题。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

下面具体来看。

GPT-4o架构揭秘：可能使用了扩散+自回归混合方案

GPT-ImgEval团队尝试“反向破解”GPT-4o的图像生成架构。

研究团队在论文中提出了4种候选架构方案（见下图），尽管细节略有不同，但有一点是一致的：GPT-4o很可能采用的是自回归主干+扩散头的混合结构。

通俗来说，它的工作流程可能是这样的：文本或指令→ 自回归模块理解语义 → 生成中间视觉Token → 扩散模型将这些Token解码成图像。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

当然，架构猜测不能仅靠想象。为此，研究团队设计了一套严谨的实证方法：

1.先选取一组统一的文本提示（prompt），分别使用自回归模型（VAR）和扩散模型（Diffusion）各自生成1万张图像作为对比样本；

2.利用这些图像训练一个二分类器，让它学会识别图像是“AR风格”还是“Diffusion风格”；

3.然后，用同样的Prompt交给GPT-4o生成图像，将这些图像输入该分类器进行识别。

也就是说，整个过程中，提示词保持完全一致，只看不同模型生成的图像“长得像谁”，以此判断GPT-4o的生成方式更接近哪类结构。

结果很直接：GPT-4o生成的图像几乎全部被识别为“扩散风格”，这就从图像风格维度验证了GPT-4o的确可能用了扩散模型作为解码器。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

除了对视觉解码器的分析，研究人员也深入探讨了视觉编码方式。

他们指出，一些研究（如UniTok）认为基于向量量化（VQ）的编码器可能会削弱模型的语义理解能力。

因此，作者认为如果采用了pixel encoder，其大概率是连续（非VQ）的而不是离散（VQ）的，并基于此提出了四种可能的完整架构示意图。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

三大维度全面评估GPT-4o图像能力

GPT-ImgEval聚焦三类核心任务，对GPT-4o进行了系统评估：

文本生成图像（GenEval）：通过对物体数量、颜色、位置、组合属性等细粒度维度进行测评，验证模型对文本的理解与图像的构造能力。

指令编辑图像（Reason-Edit）：模拟用户给出修改指令后，模型在保留图像语义基础上进行局部编辑的能力，如替换、删除、变色等。

基于世界知识的语义合成（WISE）：考察模型是否能将对世界常识、文化背景、科学原理等知识真正“显性化”为图像输出。

为了支持这一系统评估，研究团队开发了一套针对GPT-4o的自动化交互脚本，解决了当前该模型尚未开放图像生成API的现实问题。

这套脚本直接与GPT-4o网页界面交互，模拟真实用户行为：

1.自动输入提示词（Prompt）、点击提交

2.自动抓取生成图像并存储归档

3.每次请求会新开浏览器窗口，确保不同任务之间上下文不相互干扰

4.支持任务批量运行，可实现大规模、可重复的图像生成任务调度

最终，GPT-ImgEval的整体工作流如下图所示：

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

在文本生成图像（GenEval）任务中，GPT-4o取得了0.84的总得分，超越目前所有扩散类与自回归类图像生成模型。

尤其在以下几项中表现突出：数量控制（0.85）、颜色绑定（0.92）、空间位置（0.75）、属性组合（0.61）。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

下图是一些GPT-4o使用GenEval基准中的prompt生图的具体例子：

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

而在图像编辑任务（Reason-Edit）中，GPT-4o得分高达0.929，领先第二名超过0.35，说明其在指令理解和局部控制上表现极其稳定。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

在知识合成（WISE）任务中，GPT-4o同样大放异彩，多个子维度（生物、文化、物理等）得分均超过0.9，

总分0.89，远高于当前开源模型（普遍在0.4~0.5之间）。

这说明GPT-4o具有强大的世界知识和推理能力，这应该是得益于GPT-4o这种统一多模态框架。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

GPT-4o vs Gemini 2.0 Flash：多轮编辑对比

研究团队还对GPT-4o与Google的Gemini 2.0 Flash进行了多轮图像编辑对比。

除了性能与架构机制，GPT-4o在实际的使用体验中也展现出了强劲的竞争力。

研究团队对其与Google最新发布的 Gemini 2.0 Flash 进行了多轮编辑任务的实测对比。

1.GPT-4o支持完整的多轮对话式编辑流程，上下文一致性强

2.Gemini响应速度更快，但每轮需重新上传图像，缺乏连续性

3.在连续修改、复杂指令理解、图像语义保持方面，GPT-4o表现出更高的稳定性

从整体趋势来看，两者在编辑轮数增加后均出现一致性下降，但GPT-4o下降更缓，保持更稳。

GPT-4o与Gemini 2.0 Flash多轮编辑一致性对比如下图所示：

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

这一对比结果也进一步验证了：融合大模型语义理解能力的图像生成系统，在交互式创作任务中，正在展现出压倒性优势。

GPT-4o仍存五大问题，图像量化评估并非无解

研究团队总结出GPT-4o当前的五个常见生成难点：

1.无法严格保持原图尺寸与边框比例，有时会自动裁切或缩放

2.强制锐化，即使用户要求生成模糊图，也会被模型“优化”成高清

3.编辑偏暖、全图色调变化，即使只修改小部分，可能全图色调甚至是全局都会被一定程度修改

4.复杂场景失真，多人或人-物体交互场景易出现姿态不自然或结构错乱

5.非英文文本支持较弱，如中文标识常出错，难以在复杂背景准确生成

这些问题不仅影响使用体验，也提示我们——GPT-4o仍在追求“自然感”与“精确控制”之间寻找平衡。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

这些图像能被检测出来吗？

除了感知层面的观察和评估，研究团队进一步思考一个关键问题：GPT-4o生成的图像，是否真的可以“以假乱真”？

为此，研究者使用多个主流图像取证模型，对GPT-4o生成的图像进行了系统性评估。

结果显示，包括Effort、FakeVLM在内的多种检测器，对GPT-4o图像的识别准确率普遍超过95%，最高接近99.6%。

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

不仅仅停留在数值层面，研究团队还对量化评估成功的原因进行了机制层面的归因分析：

1.GPT-4o可能在图像生成过程中引入了超分辨率模块，通过上采样插值导致明显伪影

2.模型有过度锐化与细节增强倾向，视觉效果虽然“精致”，却留下了被取证模型捕捉的痕迹

3.在用户未要求修改时，仍可能出现尺寸、色彩的隐性变化，破坏了图像一致性

4.GPT-4o生成图像色调普遍偏暖，整体风格趋同，易被量化评估模型建立“风格识别模式”

可量化评估，并非弱点，而是AIGC安全设计的基线能力

研究团队认为，是否可量化评估，不应成为衡量生成模型能力强弱的标准，而应被视为评估其可控性与安全性的重要指标。

在未来的AIGC系统设计中，“逼真”固然重要，但“可识别”、“可追踪”同样不可或缺。

GPT-4o生成图像中的伪影、色彩偏好等特征，也正是推动生成量化评估研究的重要突破口。

这也正是GPT-ImgEval的差异化亮点之一：不仅做量化评估，更从安全机制的角度进行深入诊断和前瞻探索。

GPT-4o很强，但“终局”远未到来

GPT-ImgEval不仅验证了GPT-4o在图像生成上的优势，更指出了它仍需突破的短板。尤其是在可控性、多语种处理、局部编辑稳定性等方面，仍有不少提升空间。

GPT-ImgEval不仅系统性验证了GPT-4o在图像生成、图像编辑与知识合成三大任务中的领先表现，更进一步揭示了其架构特征、失败模式与安全边界。

该研究不仅在评测维度上实现了覆盖广泛、量化精准，也从架构判别、编辑可控性、多轮理解能力和伪影检测等多个层面，对GPT-4o进行了技术全景式诊断。

研究团队认为，该工作的重要意义在于：

1、提供系统化多模态评估范式：首次从“生成-编辑-推理”全流程出发，建立综合图像能力测试框架；

2、推动闭源模型的“可解释评测”研究：在无法访问模型细节的前提下，建立架构猜测和行为归因机制；

3、强调通用多轮编辑场景的实用价值：用用户视角验证语义理解一致性与细节保真性，为交互设计落地提供参考；

4、补齐图像生成安全性研究缺口：通过可检测性实证，发现图像中的上采样/超分伪影、色彩特征，推动AIGC取证技术演进。

更多细节欢迎查阅原论文。

论文地址：

https://arxiv.org/pdf/2406.19435

代码链接：

https://github.com/PicoTrex/GPT-ImgEval

数据集下载：

https://huggingface.co/datasets/Yejy53/GPT-ImgEval

文章来自于微信公众号 “量子位”，作者：GPT-ImgEval团队

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

关键词: AI , GPT-4o , GPT-ImgEval , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

GPT-4o架构揭秘：可能使用了扩散+自回归混合方案

三大维度全面评估GPT-4o图像能力

更多研究结论

GPT-4o vs Gemini 2.0 Flash：多轮编辑对比

GPT-4o仍存五大问题，图像量化评估并非无解

这些图像能被检测出来吗？

可量化评估，并非弱点，而是AIGC安全设计的基线能力

GPT-4o很强，但“终局”远未到来