ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Midjourney放大招了,专注二次元的Niji模型上线独立APP
4890点击    2023-10-17 23:41

国庆假期的余温刚刚退去,进入2023年的最后一个季度,虽然10月的天气正一天天转凉,然而在AI绘画领域,却悄然开始了新一波的战火:


10月1日,OpenAI的AI绘画模型DALL·E 3 在微软Bing实装,直接免费;


10月9日,视觉中国与华为云就视觉大模型签署合作协议,将基于华为云盘古大模型共同打造视觉大模型;


10月10日,美图秀秀发布最新自研大模型MiracleVision,各类AIGC玩法可直接体验;


10月11日,Adobe发布 Firefly Image 2 Beta 版本,文生图能力飞跃;


10月12日,谷歌推出 "搜索生成体验"(Search Generative Experience,简称 SGE)将允许用户根据文本提示直接创建图片;


10月15日,Midjourney微调动漫模型Niji-journey APP已经正式上架应用市场。


AI绘画这个市场,老牌强者是Midjourney和Stable Diffuison(以下简称SD)。然而它们的王者地位一直受到众多竞品的不断冲击,SD在开源的道路上持续奋进,在7月份推出了最新的超强开源

AI绘画大模型SDXL,现在各大SD开源模型社区一直在如火如荼地举办模型大赛(民间叫“炼丹”),各种有趣的模型在不断产生。


而作为只有11个员工,就年流水过亿的Midjourney,也一直按部就班地持续更新中。Midjourney的好处是不需要用户自己买一台配置不错的电脑,直接在Discord里输入指令即可生成质量颇高的AI绘画作品。


Midjourney上线距今也不过一年多,它持续迭代了5个大版本,从V1到V5。YouTube大V紐村遁输入了同样的提示词「一个女孩」,记录了从V1到V5的进化史,可以看到Midjourney生成图片质量有着巨大的飞跃:


Midjourney最开始生成二次元图片质量不佳,而SD上很多开源模型却能生成质量超高的二次元图片。为此,Midjourney专门针对二次元图片进行了优化,并在今年4月份推出了Niji-journey V5模型,这是Midjourney针对二次元、动漫风格的预训练好的绘图模型,使得用户在Midjourney中生成二次元图片的质量有了巨大的提升:




而今天我们要重点介绍的Niji-journey,是由Midjourney和来自麻省理工的团队Spellbrush共同打造,此前火热的二次元AI作图工具Waifu,正是出自Spellbrush之手。


10月15日,Midjourney微调动漫模型Niji-journey APP已经正式上架App Store和Google Play,用户直接搜索即可下载(iOS需要美国区App Store)。下载登录后,可以免费获得几次体验的机会,这个比完全没有体检机会、一个月要60美刀的Midjourney要好多了。


Niji-journey APP的主页还有个动态功能,在里面可以看到其他人生成的优质图片,并可以保存到本地。



简单体验了一下,在Niji-journey APP中,基本可以使用Midjourney在Discord上生成图片的所有功能,只需要输入提示词,可以选择模型、图片尺寸等,即可快速生成图片。



最后生成的图片质量也较高:



Niji-journey APP用的什么技术


其实Midjourney和Stable Diffuison以及其他厂商推出的AI绘画模型,都是采用同一种技术Diffusion Models(扩散模型)。



Diffusion Models(扩散模型)的原理简单来说,先通过对照片添加噪声,然后在这个过程中学习到当前图片的各种特征。之后再随机生成一个服从高斯分布的噪声图片,然后一步一步的减少噪声直到生成预期图片。基于Diffusion Models(扩散模型)模型的图片生成是当今AI绘图的主流技术。


底层技术一致,生成图片的效果差异性就来自模型的好坏,而模型的好坏往往取决于模型训练的参数量以及训练数据的质量。


最新一代的Stable Diffuison参数量达到了66亿,虽然Midjourney的模型参数量未公布,但基于其团队的实力,以及Niji-journey是Midjourney与来自麻省理工的团队Spellbrush共同打造的背景来看,Niji-journey的模型参数量和效果预计都表现较好。


AI绘画领域的“百模大战”


同样基于Diffusion Models(扩散模型)的AI绘画大模型有很多,比如一点都不Open的OpenAI推出的DALL·E,在10月份也推出了第三代产品。DALL·E 3可以在微软的Bing搜索里免费使用,生成图片的质量相当高。



而开源的Stable Diffusion能够让很多开发者训练自己的模型,以形成特定风格,并且开源属性让众多爱好者为它制作了很多插件,可扩展性极强,并形成了以C站为代表的生机勃勃的开源社区。



谷歌也不甘寂寞,加入了AI绘画大战,今后只需要在谷歌搜索中输入提示词,就能直接进行AI图像生成,完全没有增加任何“学习成本”,为以上功能提供支持的,是谷歌自己的文生图模型Imagen,它同样是基于Diffusion Models(扩散模型)技术。



AI绘画的未来:艺术家需要在不可逆转的AI时代里,努力找到自己的定位


下图是AI绘画应用Disco Diffusion在1年前画的“1个漂亮女孩”:



这是使用Niji-journey APP生成的“1个漂亮女孩”:



人人都会画画的时代要来了,今天的Niji-journey还不算完美,然而它还在不断的迭代进化中。可以预计的是不远的未来,一定会变得更强,也会有更多的类似的应用出现。甚至可以说,任何图像领域可能都会被它侵入,这是个肯定会改变视觉艺术领域的技术,趋势已然不可逆。下面几点是可能看到的未来:


1、AI绘画会取代大部分初级画师:AI绘图效果如此之好,初级画师的生存空间会越来越少;就像旧时光大家去拍照要去照相馆,当智能手机拍照功能普及后,大部分的照相馆都不再经营了,只剩下一些比较垂直如专门拍婚纱照的照相馆还在生存。


2、绘画的流程可能从此根本性改变:就像AlphaGo的出现,改变了围棋行业一样,人们从之前的跟真人对手博弈或者学习历史上人类总结的棋谱,变成了人们直接跟AI博弈,据说人类棋手因此学习到了很多更加高明的围棋走法。绘画也是一样,从前也许AI绘画是学习人类画手的风格和技术,未来人们可能更多的从AI绘画中学习技术和风格。


3、图库行业面临大洗牌:很多无良图库网站,你想使用他们的图片,他们就敢收你几百块版权费;AI绘画产生图片的效率之高,可能会让大部分的图库网站面临经营问题。


三百年前摄影诞生,99%的肖像画被摄影取代,一部分艺术家被迫寻找新的表现形式,印象派,野兽派,抽象主义应运而生,艺术家不再开始追求那些绘画能做到,但是摄影做不到的事情;另一部分本该成为画师的人成为了摄影师,通过摄影来表达自己,为他人服务。而今天,99%的原画师可能即将被取代,一部分艺术家将学习AI绘画,也许能创造全新的艺术形式;另一部分本该成为原画师的人,也需要在不可逆转的AI时代里,努力找到自己的定位。




本文来自微信公众号“腾讯科技”(ID:qqtech),作者:Glen;编辑:腾讯科技 yanny










关键词: Midjourney , AI绘图 , DALL·E3 , Niji
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0