OpenAI 的 Dall-E 3 生成式人工智能可以创造出奇特的图像,比如这把在迷幻绿色背景前的尖头电吉他。它使用 GPT 文本处理技术,可提高文本提示的生动性和细节效果。
如果你想为你的AI绘图注入新的活力,将文字提示转化为奇特的艺术,那么OpenAI最新发布的付费功能Dall-E 3技术,为你提供了一个新的选择。
在我的测试中,我发现 Dall-E 3 比 2022 年的 Dall-E 2 进步了很多。图像更加生动、细腻,而且往往更具娱乐性。而且它们更有说服力,图像生成的更准确,减少了很多让人奇怪的怪异现象。
2021 年,Dall-E 首次出现,向世界展示了人工智能的创造力。几个月后,OpenAI 的 ChatGPT 为生成式人工智能做出了同样的贡献,它可以写诗和散文段落。在 Dall-E 3 中,图像生成系统被直接嵌入到 ChatGPT 中。
用户Dall-E 3画的《大象跳伞降落在草地上的》的 图像。
Dall-E 3提供给企业客户以及那些每月支付20美元购买OpenAI的ChatGPT Plus订阅的用户。OpenAI表示,这项技术整合了ChatGPT的文本处理能力以及其底层的GPT-4引擎,以更好地理解文本提示。
你可以看到 GPT 技术是如何改进文本提示的。例如,当我输入 "带尖刺设计的电吉他 "时,GPT 将其升级为 "一把与众不同的电吉他的插图,其主要设计元素是大量的尖刺。吉他的琴身、琴颈和琴头都点缀着这些尖锐的特征,使其成为所有摇滚乐爱好者的代表作"。
它生成了四个扩展的提示。如果它强化的版本不符合您的要求 - 例如,如果您想降低GPT过于夸张的措辞,您可以将它引导到不同的方向。
Dall-E 3遵循了我大部分的指令,创建了一个女孩坐在门廊上,在一个下雨的日子里梦想滑雪的图像,但它把她思维泡泡中的天气从我要求的晴天改成了另一场倾盆大雨。
帮助构建 Dall-E 3 的 OpenAI 研究人员之一 Gabriel Goh 表示:“我们希望该模型实际上能够更深入地理解自然语言。”这个想法是从即时工程中剔除一些工程。是技术圈中出现的一项专业,专家们擅长输入正确的文本来哄骗人工智能系统产生所需的输出。人工智能不只是看到一堆混乱的单词,它可以更好地解释短语和描述,例如理解你想要场景中的男人有胡子,女人有红头发。
同样有帮助的是:遵循 ChatGPT 更具对话性的界面,您可以请求后续改进,例如“现在添加浅绿色迷幻背景”,Dall-E 3 将更新其之前的输出。
这对我来说效果很好。例如,当 Dall-E 要求在堆肥盒中展示一些快乐的蠕虫时,我的要求有点过分,我用“让蠕虫不那么狂躁”的请求来控制它。
Dall-E 3 在堆肥箱中生成了这些快乐的蠕虫。随着 GPT 将我的文本提示调至更戏剧性的内容,我发现蠕虫有点太高兴了。
在我的测试中,在很多情况下我对结果比使用Adobe 第二代 Firefly AI生成图像更满意。Adobe 提供了更好的控件来调整您的提示,并且它会建议术语来以与 OpenAI 的 GPT 文本增强相关的方法完成良好的提示,但通常在构建吉他弦和山地自行车辐条时,Dall-E 可以更好地呈现问题区域。对于人工智能来说,手是一个臭名昭著的麻烦点,但 Dall-E 3 却表现得很好。
Goh 表示,图像质量的提高主要来自新的人工智能培训课程,该培训课程使用了更仔细、更准确地标记的照片。
它并不完美。一头大象有五只脚,山地自行车踏板对于人工智能来说似乎是不可能的。Dall-E 3 有时会在主题周围制作一个巨大的白色光环,并避开将其与背景令人信服地合成这一更为棘手的工作。这些蠕虫有时两端都有脸,它们通常居住在一个木箱中,该木箱的结构只有纸板箱才能看到。
Dall-E 3 制作了十几张穿着重金属服装的食尸鬼在后世界末日城市景观中骑山地自行车的图像,但它在踏板和齿轮方面遇到了困难。
另一位 Dall-E 团队成员 Sandhini Agarwal 表示,通过 Dall-E 3,OpenAI 加大了阻止滥用和其他问题的力度。
它已经禁止性或暴力图像等图形内容,并阻止展示政客等公众人物的努力。OpenAI 表示,经过新的人工监督,该系统现已得到改进。
事实上,当我要求提供一张建筑工人危险地悬挂在安全缆绳上的图像时,系统首先创建了我的提示的更复杂版本,然后在生成四分之三的图像后停止,并显示以下信息:“我为疏忽道歉。一些请求的图像不符合我们的内容政策。因此,我无法生成所有图像。安全性和敏感性对我们来说至关重要。”
文章来自 “ CNET ”