ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞 | 可免费体验
9835点击    2024-01-16 14:13

大厂们在整活方面开始卷起来了!


前脚字节阿里的工具火了,现在腾讯这个新照片生成应用PhotoMaker直接刷屏,瞧这阵仗……



只需上传一张或以上照片,无需额外LoRA训练,就能快速可定制。任何人、任何风格,高保真那种。


于是秒秒钟,LeCun化身钢铁侠。但随后LeCun转发表示:那个文艺复兴时期的绘画风格是他最喜欢的。



杨幂各类风格写真爆出。



除此之外,还有更多有意思的功能,目前应用Demo已免费开放体验。


这就来提前体验一把。


PhotoMaker刷屏


总结来看,PhotoMaker主要有这样三大功能:


第一个,可以根据描述生成多种风格个人照片


比如,你见过这样的黑寡妇吗?



就是在二次元里也行的照片,也可以生成。



第二个,混合不同人物特征,生成全新人物形态


脑洞大开一下,奥特曼和乔布斯“生”的孩子,可能长这样???



甚至还可以破次元结合!



除此之外,还有一些小细节的功能,修改个年龄、性别以及照片年代啥的。


小时候的马斯克,你见过吗?



当LeCun变成几十岁大妈……



目前,研究团队给了两个体验版本:官方原版以及风格化版本。其中风格化版,要想实现更好的效果,仅需要更改基础模型并添加LoRA模块。


不过这两个版本食用起来没有任何区别,主要分为三个步骤。



首先,上传你想定制的照片。一张可以,多张也行。


值得注意的是,他们这里强调了,他们不会进行人脸检测,但上传的图片人脸已经要占据图片大部分。


其次,输入文字提示,确保在要定制的类别词后面加上触发词:img


如:男人 img 或女人 img 或女孩 img。


然后再选择喜欢的样式、风格模版,就可以生成了。


不过现在实测,效果会出的比较慢,可能是太多人使用了。


如何实现?


简单来说,PhotoMaker采用了一种简单而有效的表示方法——堆叠ID嵌入。


它可将多个身份证明(ID)图像的信息合并成统一的数据结构,这样能更好保存单个ID信息的同时,还能整合多个不同ID特征。



具体而言,首先,分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。然后,通过合并相应的类别嵌入(比如性别)和每个图像嵌入,提取融合嵌入。接着,沿长度维度串联所有融合嵌入,形成堆叠ID嵌入。最后再将其输入到Diffusion Model生成图像。


由于训练过程需要使用按ID分类的数据集,但现有数据集要么没有注释ID信息,要么所包含的场景丰富度有限,比如只关注面部区域。


为此,研究人员还专门构建了一个以ID为导向的文本图像数据集构建管线,它能按照不同ID进行分类。每个ID都有多幅图像,这些图像包括不同的表情、属性、场景等。



需要注意的是,虽然训练过程中使用的是带背景遮蔽的同一ID图像,但在推理过程,可直接输入不同ID、且不带背景遮蔽的图形,来创建新ID。


实验结果表明,与其他方法相比,PhotoMaker具备高质量和多样化的生成能力,以及可编辑性、保真性。


此外,这一方法还能实现更多以往难实现的有趣功能。比如改变年龄或性别、将旧照片或艺术作品中的人物还原到现实中以及身份混合等。


好了,感兴趣的朋友可戳下方链接玩玩~


https://huggingface.co/spaces/TencentARC/PhotoMaker


https://huggingface.co/spaces/TencentARC/PhotoMaker-Style


论文链接:

https://arxiv.org/abs/2312.04461


项目链接:

https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo


文章来自于微信公众号“量子位”(ID: QbitAI),作者 “白交”


关键词: PhotoMaker , AI照片 , 腾讯AI