前几天在对战平台Artificial Analysis出现了一个神秘的文生图模型"red_panda",而且排行位列第一,超过之前火爆的Flux 1.1 [pro]模型。当时很多人猜测是来自OpenAI的DALL-E 4,或者是国内开发的模型。但是现在都错了,"red_panda"其实来自一家英国伦敦的初创公司Recraft.ai。
这家公司于2022年在美国成立,总部位于英国伦敦,致力于使设计师能够创建和完善他们的视觉效果,核心优势包括其卓越的文本生成质量、品牌一致性和矢量艺术生成。
"red_panda"就是Recraft.ai最新推出的Recraft V3,目前在对战平台Artificial Analysis评分第一:
新的Recraft V3在各个方面都有所改进,特别是在文本生成方面取得了显著的进步。此外还推出了几项新的重要功能,使用户能够更精确地控制AI生成:在图像中指定文本大小和位置的可能性、精确的风格控制、改进的图像修复功能以及新的图像扩展能力。该模型现在可供Canvas桌面应用中的免费和付费用户使用,在移动应用(可在iOS和Android上使用)中,以及通过API访问。
Recraft V3的主要优势在于文本生成质量、解剖学准确性、提示词理解和高审美质量。
在文本生成质量方面,Recraft V3表现出色。Recraft V3 是世界上唯一能够生成带有长文本的图像的模型,与只能生成一个或几个单词的模型不同。
解剖学准确性是指用于选择生成最准确解剖结构的模型的指标,确保手指、手和腿的数量正确,身体比例真实,场景内的空间一致性,以及背景对象相对于主体的自然定位。Recraft V3被调整为生成具有正确解剖结构的图像。
提示词理解指的是图像与文本提示词中详细说明的细节对齐的准确性。Recraft V3能够生成包含复杂场景的图像,包括提示中提到的对象的正确数量、颜色和位置。
高审美质量是一个主观的指标,用于衡量图像的“美感”。在这方面,Midjourney历史上一直表现出色。新的Recraft V3模型考虑了这一指标,并被训练以生成具有高审美价值的图像。
Recraft 以满足专业设计师的需求为目标,开始构建基础模型。文本到图像的基准测试侧重于整体图像生成质量。然而,在平面设计领域的真实任务中,仅拥有高质量的文本到图像模型是不够的。重要的是为用户提供对图像生成的完全控制,以便他们能够以高精度实现自己的想法。
所以,新模型 Recraft V3 被训练为提供比其他所有现有 AI 模型更多的图像生成控制。主要创新包括:
Recraft V3模型允许指定设计中文本的确切位置和大小。
也可以定位其他图像并将它们与文本结合,从而允许生成复杂的平面设计。
Recraft V3在风格创建过程允许进行细粒度的实验。可以选择一组代表品牌风格的图像,并尝试不同的风格候选,直到调整到品牌所需的确切外观和感觉。背后是因为Recraft V3接受风格作为模型的输入,而不需要重新训练模型来捕捉风格的细节。
除了改进的控制功能,Recraft V3 支持对平面设计空间至关重要的独特能力。Recraft 的一个显著特点是它支持矢量图像生成,从简单的象形图集到高度详细的矢量艺术。此外,Recraft V3 提供了一整套 AI 图像编辑工具,帮助设计师从头到尾创建和编辑视觉效果,包括:AI橡皮擦(AI Eraser)、修改区域(Modify Area)、图像修复(Inpainting)、图像扩展(Outpainting)、AI Mockuper、创意和清晰度提升(Creative and Clarity Upscalers)、AI微调(AI Fine-Tuning)以及背景移除器(Background Remover)。
最重要的是,Recraft 还推出了一个 API(https://www.recraft.ai/docs),使开发者和企业能够将最新的图像生成和 AI 设计能力集成到他们的工作流程中。这个 API 提供了对 Recraft 模型的访问,支持光栅和矢量格式,生成带有文本的图像,并允许创建自定义风格以确保品牌一致性。此外,它还支持指定品牌颜色,并提供高级功能,如矢量化、放大、图像质量改进和背景移除,为用户提供了一套独特的功能,涵盖了所有 AI 图像编辑套件通过 API 实现的功能。
目前,已经可以在https://fal.ai/models/fal-ai/recraft-v3上体验最新的Recraft V3模型:
或者使用https://replicate.com/recraft-ai/recraft-v3。
最后不得不说:在AI领域,黑马真是常常有,这意味着没有谁能一直领先!
文章来自于微信公众号“AI小小将”,作者“AI小将”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0