OpenAI的全新AI图像生成器DALL-E 3突破了细节和提示保真度的极限

14430点击 2023-09-21 10:24

周三，OpenAI发布了DALL-E 3，这是其 AI 生成图像模型的最新版本，其功能与ChatGPT完全集成。DALL-E 3 通过严格遵循复杂的描述并处理图像内文本生成（例如标签和标志）来渲染图像，这对早期模型提出了挑战。目前处于研究预览阶段，将于 10 月初向 ChatGPT Plus 和企业客户提供。

与其前身一样，DALLE-3 是一个文本到图像生成器，可以根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有发布有关 DALL-E 3 的技术细节，但 DALL-E 早期版本的核心 AI 模型接受了人类艺术家和摄影师创作的数百万张图像的训练，其中一些图像是从 Shutterstock 等股票网站获得许可的。DALL-E 3 很可能遵循相同的公式，但采用了新的训练技术和更多的计算训练时间。

从 OpenAI 在其宣传博客上提供的示例来看，DALL-E 3 似乎是一个比任何其他可用的AI生成图像模型功能都要强大。虽然 OpenAI 的示例是被官方精心挑选的，但它们似乎忠实地遵循提示指令，令人信服地以最小的变形渲染对象。OpenAI 表示，与DALL-E 2相比，DALL-E 3 更有效地完善了手等小细节，默认创建引人入胜的图像，“无需黑客或者提示词工程”。

相比之下，虽然另一家目前市场著名的人工智能图像生成模型Midjourney，可以很好地呈现照片级真实感细节，但它仍然需要大量反直觉的修改提示，才能获得对图像输出的任何控制。

DALL-E 3 似乎还可以以其前身无法做到的方式处理图像中的文本（一些竞争模型，如Stable Diffusion XL和DeepFloyd在这方面做得越来越好）。例如，包含以下文字的提示：“牛油果坐在治疗师的椅子上，说‘我感觉内心很空虚’，中心有一个坑大小的洞”，完美地创建了一个卡通牛油果，并完美地引用了角色名言封装在一个对话气泡中。

值得注意的是，OpenAI 表示，DALL-E 3 是在 ChatGPT 上“原生构建”的，并将作为 ChatGPT Plus 的集成功能出现，允许以 AI 助手作为头脑风暴合作伙伴的方式对图像进行对话式改进。这也意味着 ChatGPT 将能够根据当前对话的上下文生成图像，这可能会带来新颖的新功能。微软的 Bing Chat AI 助手也是基于 OpenAI 的技术构建的，自 3 月份以来已经能够在对话中生成图像。

引发风暴的茶壶

OpenAI的全新AI图像生成器DALL-E 3突破了细节和提示保真度的极限

DALL-E 3 AI 生成的图像：“暴风雨天放在窗台上的咖啡杯的 3D 渲染。窗外的暴风雨反映在咖啡中，里面可以看到微型闪电和湍流杯子。房间里光线昏暗，增添了戏剧性的气氛。”

DALL-E 的原始版本于 2021 年 1 月出现，OpenAI 于 2022 年 4 月推出了其功能更加强大的续集，开启了人工智能生成图像的新时代，其惊人的爆炸性吸引了最初的内测测试人员。DALL-E 模型使用一种称为潜在扩散的技术，将噪声细化为图像，它可以根据从数据集训练中获得的知识和提示的指导来“识别”图像。去年八月，同样的技术使得开放重量模型稳定扩散（Stable Diffusion）的出现。

作为对这些争议的认可，OpenAI 表示 DALL-E 3 的设计目的是拒绝要求提供在世艺术家风格的图像的请求。OpenAI 还提供了一种形式，创作者可以选择不使用他们的图像来训练未来的模型。这些措施似乎不太可能满足艺术家的要求，他们通常认为人工智能训练应该只是选择加入，而不是默认包含在图像数据集中。

OpenAI的全新AI图像生成器DALL-E 3突破了细节和提示保真度的极限

DALL-E 2（左）和 DALL-E 3（右）生成的“一幅篮球运动员扣篮的富有表现力的油画，描绘为星云爆炸”的比较。

目前，美国的版权政策规定，纯粹由人工智能生成的艺术品不能获得版权保护，因此从技术上讲，任何使用 DALL-E 3 创建的图像都将属于公共领域。虽然 OpenAI 没有明确承认这一点，但它确实表示，"你用 DALL-E 3 创建的图像归你使用，你不需要我们的许可就可以转载、出售或销售它们"。与去年相比，这是一个明显的变化。去年，OpenAI 限制使用《DALL-E 2》的图像，而当时的许可证规定，OpenAI "拥有所有DALL-E 2的所有权"。

关于安全性，OpenAI 表示，与 DALL-E 2 一样，它在 DALL-E 3 中实施了关键字和图像检测过滤器，以限制其产生暴力、性或仇恨内容的能力。该系统还被编程为拒绝按姓名生成公众人物图像的请求——这曾给竞争对手的人工智能图像生成器 Midjourney 带来麻烦，因为它生成了唐纳德-特朗普（Donald Trump）的假逮捕图像。

OpenAI表示，它已与被称为 "红队 "的专家合作，以识别和降低潜在风险，如有害偏见或生成宣传和错误信息。OpenAI没有透露其工具是否有可能通过令人信服的捏造篡改历史记录，不过它表示正在尝试使用一种 "出处分类器 "工具，帮助识别图片是否由《DALL-E 3》生成。

目前，我们还无法使用 DALL-E 3 进行测试，但 OpenAI 表示，人工智能图像生成器目前正在进行封闭测试。它计划 "在 10 月份通过 API 向 ChatGPT Plus 和企业客户提供，并在今年秋天晚些时候在实验室提供"。

文章转载自”arstechnica“

关键词: DALL-E , 3 , 文生图 , AI , openai

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0