奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

10109点击 2026-04-22 10:04

今夜，ChatGPT Images 2.0震撼上线，成为首个「会思考」的图像AI。奥特曼直呼这是从GPT-3到GPT-5的飞跃。它不仅能精准听懂中文指令、渲染复杂UI，甚至能在米粒上刻字。

那个熟悉的OpenAI又回来了！

凌晨，奥特曼亲自带队，开启20分钟线上直播，打破了数日的沉寂。

OpenAI终于祭出了传闻中的ChatGPT Images 2.0，正式开启图像生成的全新纪元。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

Images 2.0是一次质的飞跃，它在精准听懂长指令、准确摆放并理清物体间关系、渲染密集文本方面有了巨大突破。

最重要的是，它是首个具备「思考能力」的图像模型，可以联网搜索实时信息、二次自检。

它还能一次性直出八张风格连贯的图，最高支持2K超清分辨率。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

这么说吧，Images 2.0的出世，重新定义了视觉生成的统治力——

像素级精度：小字号文本、图标、UI元素等复杂细节一键生成，支持3:1到1:3全尺寸输出；
多语言质变：中日韩等非拉丁文字精准渲染，不仅字拼得对，语句也通顺连贯；
风格成熟：照片级逼真感，电影剧照、像素艺术、漫画等视觉语言都拿捏得住；
会思考：首个具备推理能力的图像模型，能联网搜索、自检输出，知识更新至2025年12月。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

在Arena最新榜单中，Images 2.0一骑绝尘，登顶全球AI生图王座。实力暴击谷歌Nano Banana 2/Pro版本，领先242分。

它在全部7个文生图类别中，全部位列第一。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

最狠的是，它可以做到像素级生成。

直播中生成的一张米山图，其中的一颗大米粒，竟刻上了「GPT image 2」的字体。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

奥特曼还秀了一番，和4o图像负责人Gabriel Goh一起更多GPU的漫画图。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

网友们纷纷上手，被Images 2.0的实力再次惊艳到了。

甚至，有人表示，「OpenAI终于再次引领图像生成领域」！

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

中文直接封神

OpenAI自己玩梗「稳稳地接住你」

过去的图像模型，英语和拉丁字母语言表现尚可，一碰到中日韩文字就开始「鬼画符」。

这次，官博里放出的中文Demo，直接炸了。

OpenAI研究科学家陈博远亲自出镜（很可能也是他自己写的prompt），生成了一整页全中文彩色漫画，讲的是他在OpenAI做ChatGPT Image 2中文文本渲染优化的故事。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

这张图同时证明了三件事，中文文本渲染能力质变、极小字号的精度控制、以及复杂多面板漫画的一次性生成能力

漫画分五排，第一排是陈博远在电脑前埋头工作，背景里有珍珠奶茶，墙上用一条胶带粘着一根香蕉（致敬艺术圈名场面）。

第二排是他为家乡无锡生成的多语言手绘风格信息图海报，上面密密麻麻的中文小字全部渲染正确。

第三排是团队看到效果后集体兴奋的场面。

第四排画风一转，陈博远拿着手机休息，收到了奥特曼发来的一条翻译短信，祝贺团队的中文渲染成果。

然后，重头戏来了。

第五排，陈博远看到奥特曼生成的那张祝贺图片，中央位置赫然写着一句「稳稳地接住你」。

懂的都懂。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

GPT在中文对话中动不动就「我会稳稳地接住你」「你的感受是合理的」，那股子油腻又真诚的美式心理咨询味，被中文用户疯狂吐槽了大半年

漫画里的陈博远当场破防，漫画式暴怒大喊「天呐！它又学会了接住！」，旁边的队友们化身小脑袋冒冷汗，弱弱地说「我们正在努力修复它！」

这波自嘲，可以给满分。（手动狗头）

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

中文之外，OpenAI还放出了全日语对白的少年冒险漫画、涵盖印地语、孟加拉语、泰卢固语等九种语言书籍封面的印度书店，以及韩语高级韩屋住宿广告。

语言不再是图像生成的「二等公民」了。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

像素级生成

GPT-3到GPT-5大跨越

ChatGPT Images 2.0可以称之为OpenAI生图的下一个里程碑发布。

直播中，奥特曼将其称之为，「这种感觉就像是一下子从GPT-3直接跃升到了GPT-5」。

上传一张四人合照，ChatGPT直出一张杂志封面，在页面设计、文字排版都非常讲究。

而且海报中，包含了海量的细节，小字的处理，人物面部一致性，给人一种「男团」的即视感。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

在细节方面，ChatGPT输出完全达到了「照片级」效果，逼真到让人看不出是AI生成的。

比如下面这张，穿越回2015年OpenAI刚成立那年，阶梯教室光线环境、PPT文案让人震惊。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

真正让全场惊掉下巴的，是一张人类登月的360°全景图。

把ChatGPT生成的图片扔进全景查看器，便可以实现如下的效果，太阳的位置、影子的方向，以及一些细节全部清晰可见。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

官方放出的Demo里，有一张macOS浏览器中ChatGPT窗口的截图。

窗口层叠、终端在后台打开、桌面杂乱无章，视觉细节多到离谱，生成出来的效果几乎和真实截图一模一样。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

渲染精度到了这个级别，说明模型对图像中每一个像素的控制力已经跨过了一个临界点。

照片级逼真感

AI生成的图终于不像AI了

风格逼真度是另一个大跃进。

过去AI生成的图片，总有一种说不出的「AI感」，皮肤太光滑、光线太均匀、构图太完美，一眼就能看出不是真人拍的。

Images 2.0反其道而行之，开始学会「不完美」。

官方Demo里有一组抓拍快照，35mm胶片质感，可见颗粒感，构图略微偏离中心，衣服和头发在风中飘动。

如果不告诉你是AI生成的，你会以为这是某个摄影师在公路旁随手按下快门的结果。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

还有一组一次性相机风格的照片，模拟的是2000年代初美国高中电脑室的场景，学生们挤在米色CRT显示器前用ChatGPT。

闪光灯过曝、轻微运动模糊、角落里印着「02 18 04」的橙色日期戳，所有「胶片时代的不完美」都被精准复现。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

在风格多样性上，Images 2.0也拉开了差距。

宽高比现在支持最宽3:1、最高1:3。为此，OpenAI专门放了一张横版中国传统长卷山水画，笔墨晕染和留白都有模有样。

1960年代法国新浪潮电影海报、装饰艺术风格书签、动漫角色设定图，每一种视觉语言都保持了高度的风格一致性，而不只是「看起来有点像」。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

会思考的图像模型

一次生成八张连贯画面

现场直播中，ChatGPT图像负责人Gabriel Goh表示，Images 2.0一共上线了两种模式——

即时模式（Instant Mode）
思考模式（Thinking Mode）

其中最颠覆性的升级，全部藏在「思考模式」里。

当在ChatGPT中选择思考模型时，Images 2.0不再只是一个「你说我画」的渲染器，而是变成了一个视觉思考伙伴。

它会花更多时间理解你的意图，搜索网络获取实时信息，对图像结构进行推理，然后再动笔。

更关键的是，思考模式下它可以一次性生成最多八张风格连贯、角色一致、内容递进的图像。

只需上传一张大头照，ChatGPT就能立刻给出八套夏装搭配。选择其中一套，还会为你生成更多衣服不同角度的细节。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

在这个任务中，ChatGPT调用了两种不同的「视觉智能」：

首先是「视觉理解」能力，它要真切地去「看」照片。理解一个人的样貌，然后规划出合适的服装搭配方案。

另一个维度则是「视觉生成」能力。它需要把规划好的服装布局，转化为一张连贯且有条理的图片。

以前想做一组社交媒体素材，你得一张张生成，自己拼接。现在一句prompt，Twitter、Instagram Stories、Instagram Feed、LinkedIn四种尺寸一次性出齐，色调和构图风格统一。

官方Demo展示了一家布鲁克林抹茶店「kizuki」的广告素材，冰镇草莓抹茶在阳光下的画面，街头服饰美学搭配日式极简，四种社交平台尺寸一步到位。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

还有一个学术论文海报的Demo，直接上传PDF，模型自动提取关键图表、数据和结构，排版成一张横版海报。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

值得一提的是，Images 2.0开启思考模式后，还可以直接联网搜索信息。

团队透露，几天前在Arena盲测的「DuckTape」就是今天的Images 2.0。

然后，他们让Images 2.0搜集网友反馈，并制作成一张图。没想到，模型还生成了一个可直接扫描的「二维码」。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

ChatGPT、Codex全线开放

从今天起，所有ChatGPT、Codex都可以用上ChatGPT Images 2.0。

带有「思考」过程的图像生成功能，已向ChatGPT Plus、Pro、Business用户开放。底层模型gpt-image-2也已在API中上线。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

在定价方面，ChatGPT Images 2.0更强了，同时toekn输入/输出价格没有涨。

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

对普通用户来说，演示文稿配图、社交媒体海报、产品宣传卡片这些过去要开Photoshop折腾半天的活，现在一句prompt搞定。

对开发者和企业来说，本地化广告、多语言信息图、教育内容、设计工具这些需要大量人工的视觉工作流，现在都可以通过API批量自动化了。

Codex里更是把图像生成整合进了工作区，设计团队可以在同一个环境里出UI方案、比选项、转产品，全程不用切换工具。

图像生成的iPhone时刻？

回头看，从DALL·E到Midjourney到Stable Diffusion，AI图像生成一直处在「够用但不太行」的状态。

文字渲染翻车、多语言拉胯、风格千篇一律、构图一眼AI，这些痛点每一个都劝退了想把AI图像用在正经场景里的人。

Images 2.0一口气把这些短板全补上了，还加了思考能力和多图一次性生成。

虽然它离「完美」还有距离，但它可能是第一个让设计师、营销人员和内容创作者觉得「这东西我真的可以用在工作里」的AI图像模型。

现在，设计师们可能要重新想想，自己的护城河到底在哪里了。

参考资料：

https://x.com/OpenAI/status/2046661795327459677

https://x.com/OpenAI/status/2046670977145372771

https://openai.com/index/introducing-chatgpt-images-2-0/

https://x.com/sama/status/2046672912833458597

文章来自于"新智元"，作者 "好困桃子"。

关键词: AI新闻 , Images 2.0 , ChatGPT Images 2.0 , AI作图 , OpenAI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales