国庆假期的余温刚刚退去,进入2023年的最后一个季度,虽然10月的天气正一天天转凉,然而在AI绘画领域,却悄然开始了新一波的战火:
10月1日,OpenAI的AI绘画模型DALL·E 3 在微软Bing实装,直接免费;
10月9日,视觉中国与华为云就视觉大模型签署合作协议,将基于华为云盘古大模型共同打造视觉大模型;
10月10日,美图秀秀发布最新自研大模型MiracleVision,各类AIGC玩法可直接体验;
10月11日,Adobe发布 Firefly Image 2 Beta 版本,文生图能力飞跃;
10月12日,谷歌推出 "搜索生成体验"(Search Generative Experience,简称 SGE)将允许用户根据文本提示直接创建图片;
10月15日,Midjourney微调动漫模型Niji-journey APP已经正式上架应用市场。
AI绘画这个市场,老牌强者是Midjourney和Stable Diffuison(以下简称SD)。然而它们的王者地位一直受到众多竞品的不断冲击,SD在开源的道路上持续奋进,在7月份推出了最新的超强开源
AI绘画大模型SDXL,现在各大SD开源模型社区一直在如火如荼地举办模型大赛(民间叫“炼丹”),各种有趣的模型在不断产生。
而作为只有11个员工,就年流水过亿的Midjourney,也一直按部就班地持续更新中。Midjourney的好处是不需要用户自己买一台配置不错的电脑,直接在Discord里输入指令即可生成质量颇高的AI绘画作品。
Midjourney上线距今也不过一年多,它持续迭代了5个大版本,从V1到V5。YouTube大V紐村遁输入了同样的提示词「一个女孩」,记录了从V1到V5的进化史,可以看到Midjourney生成图片质量有着巨大的飞跃:
Midjourney最开始生成二次元图片质量不佳,而SD上很多开源模型却能生成质量超高的二次元图片。为此,Midjourney专门针对二次元图片进行了优化,并在今年4月份推出了Niji-journey V5模型,这是Midjourney针对二次元、动漫风格的预训练好的绘图模型,使得用户在Midjourney中生成二次元图片的质量有了巨大的提升:
而今天我们要重点介绍的Niji-journey,是由Midjourney和来自麻省理工的团队Spellbrush共同打造,此前火热的二次元AI作图工具Waifu,正是出自Spellbrush之手。
10月15日,Midjourney微调动漫模型Niji-journey APP已经正式上架App Store和Google Play,用户直接搜索即可下载(iOS需要美国区App Store)。下载登录后,可以免费获得几次体验的机会,这个比完全没有体检机会、一个月要60美刀的Midjourney要好多了。
Niji-journey APP的主页还有个动态功能,在里面可以看到其他人生成的优质图片,并可以保存到本地。
简单体验了一下,在Niji-journey APP中,基本可以使用Midjourney在Discord上生成图片的所有功能,只需要输入提示词,可以选择模型、图片尺寸等,即可快速生成图片。
最后生成的图片质量也较高:
其实Midjourney和Stable Diffuison以及其他厂商推出的AI绘画模型,都是采用同一种技术Diffusion Models(扩散模型)。
Diffusion Models(扩散模型)的原理简单来说,先通过对照片添加噪声,然后在这个过程中学习到当前图片的各种特征。之后再随机生成一个服从高斯分布的噪声图片,然后一步一步的减少噪声直到生成预期图片。基于Diffusion Models(扩散模型)模型的图片生成是当今AI绘图的主流技术。
底层技术一致,生成图片的效果差异性就来自模型的好坏,而模型的好坏往往取决于模型训练的参数量以及训练数据的质量。
最新一代的Stable Diffuison参数量达到了66亿,虽然Midjourney的模型参数量未公布,但基于其团队的实力,以及Niji-journey是Midjourney与来自麻省理工的团队Spellbrush共同打造的背景来看,Niji-journey的模型参数量和效果预计都表现较好。
同样基于Diffusion Models(扩散模型)的AI绘画大模型有很多,比如一点都不Open的OpenAI推出的DALL·E,在10月份也推出了第三代产品。DALL·E 3可以在微软的Bing搜索里免费使用,生成图片的质量相当高。
而开源的Stable Diffusion能够让很多开发者训练自己的模型,以形成特定风格,并且开源属性让众多爱好者为它制作了很多插件,可扩展性极强,并形成了以C站为代表的生机勃勃的开源社区。
谷歌也不甘寂寞,加入了AI绘画大战,今后只需要在谷歌搜索中输入提示词,就能直接进行AI图像生成,完全没有增加任何“学习成本”,为以上功能提供支持的,是谷歌自己的文生图模型Imagen,它同样是基于Diffusion Models(扩散模型)技术。
下图是AI绘画应用Disco Diffusion在1年前画的“1个漂亮女孩”:
这是使用Niji-journey APP生成的“1个漂亮女孩”:
人人都会画画的时代要来了,今天的Niji-journey还不算完美,然而它还在不断的迭代进化中。可以预计的是不远的未来,一定会变得更强,也会有更多的类似的应用出现。甚至可以说,任何图像领域可能都会被它侵入,这是个肯定会改变视觉艺术领域的技术,趋势已然不可逆。下面几点是可能看到的未来:
1、AI绘画会取代大部分初级画师:AI绘图效果如此之好,初级画师的生存空间会越来越少;就像旧时光大家去拍照要去照相馆,当智能手机拍照功能普及后,大部分的照相馆都不再经营了,只剩下一些比较垂直如专门拍婚纱照的照相馆还在生存。
2、绘画的流程可能从此根本性改变:就像AlphaGo的出现,改变了围棋行业一样,人们从之前的跟真人对手博弈或者学习历史上人类总结的棋谱,变成了人们直接跟AI博弈,据说人类棋手因此学习到了很多更加高明的围棋走法。绘画也是一样,从前也许AI绘画是学习人类画手的风格和技术,未来人们可能更多的从AI绘画中学习技术和风格。
3、图库行业面临大洗牌:很多无良图库网站,你想使用他们的图片,他们就敢收你几百块版权费;AI绘画产生图片的效率之高,可能会让大部分的图库网站面临经营问题。
三百年前摄影诞生,99%的肖像画被摄影取代,一部分艺术家被迫寻找新的表现形式,印象派,野兽派,抽象主义应运而生,艺术家不再开始追求那些绘画能做到,但是摄影做不到的事情;另一部分本该成为画师的人成为了摄影师,通过摄影来表达自己,为他人服务。而今天,99%的原画师可能即将被取代,一部分艺术家将学习AI绘画,也许能创造全新的艺术形式;另一部分本该成为原画师的人,也需要在不可逆转的AI时代里,努力找到自己的定位。
本文来自微信公众号“腾讯科技”(ID:qqtech),作者:Glen;编辑:腾讯科技 yanny
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0