
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。
流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。
我又发现好东西了!前几天在 Artificial Analysis 上发现了一个新模型:17B 参数的国产模型 HiDream-I1排到第二名,和 GPT-4o 得分非常接近!
“史上最强视觉生成模型”,现在属于快手。一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。可图2.0,对比MidJourney 7.0,胜负比「(good+same) / (same+bad)」超300%,对比FLUX超过150%;
刚出道的 HiDream-I1,拿下了 Hugging Face 趋势榜第二(图像榜第一),Artificial Analysis 文生图第二,排在Midjourney、Google Imagen、FLUX、SDXL 之前,仅次于 GPT-4o 。
利用字节团队魔改的FLUX模型,可以直接把多个参考主体放进一张图了。
近日,根据彭博社报道,Flux背后公司黑森林工作室(Black Forest Labs)即将在新一轮融资中获得由a16z领投的2亿美元,预计公司估值突破10亿美元大关。2亿美元,是文生图领域迄今为止规模最大的融资。此次融资完成后,黑森林也是文生图领域为数不多的独角兽公司。
随着基础模型(如VLMs,例如Minimax、Qwen-V)和尖端图像生成技术(如Flux 1.1)的快速发展,我们正进入一个创造性可能性的新纪元。结合像T5这样的模型以增强对潜在空间中文本提示的理解,这些工具使得生产广告级别的关键视觉(KVs)成为可能,且具有显著的真实感。
“最强绘图模型”FLUX深夜更新,一口气连发四款工具!
AI视频产品越来越卷了。 一拖一拽、输入提示词,点击生成,便在空白画布上搭建起了一个前段时间在网上很火的Flux+图生视频的工作流。
黑森林实验室(Black Forest Labs)最近推出了FLUX1.1 [pro]的Ultra模式和Raw模式,为图像生成工具带来突破性升级,让创作者在AI生成图像领域有了前所未有的选择。