又一国产图像大模型开源!实测连续P图绝了,中文渲染是短板
又一国产图像大模型开源!实测连续P图绝了,中文渲染是短板今日,美团正式发布并开源图像生成模型LongCat-Image,这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型,重点瞄准文生图与单图编辑两大核心场景。在实际体验中,它在连续改图、风格变化和材质细节上表现较好,但在复杂排版场景下,中文文字渲染仍存在不稳定的情况。
今日,美团正式发布并开源图像生成模型LongCat-Image,这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型,重点瞄准文生图与单图编辑两大核心场景。在实际体验中,它在连续改图、风格变化和材质细节上表现较好,但在复杂排版场景下,中文文字渲染仍存在不稳定的情况。
现在,终于也有国产 AI 接力,进一步把这条路跑通。Vidu Q2 最新上线的文生图、参考生图、图像编辑功能就是这个路子:卷完「好看」,它开始死磕「稳定性」。这次 Vidu Q2 直接把技能点全加在了「一致性」上。什么概念?就是把「人设崩坏」、「产品变形」、「画风突变」这些老大难问题统统按在地上摩擦。
6B小模型,首日下载量高达50万次,上线不到两天直接把HuggingFace两个榜单都冲了个第一。
谷歌乘胜追击!Gemini 3 Pro好评如潮没两天,最强文生图模型Nano Banana也推出Pro版本。
Gemini 3 Pro刚炸完,谷歌又在深夜扔出了「AI图像新神」Nano Banana Pro!它用像素级的恐怖细节和完美的汉字渲染告诉世界,谁才是AI生图真正的王者。
扩散模型「去噪」,是不是反而忘了真正去噪?何恺明携弟子出手,回归本源!
就在前两天,深圳一家名为 Inspire Curve 的创企设计出的 AI 概念相机,获得了有“设计界奥斯卡”美誉的 iF 设计奖。从媒体报道给出的信息看,两款产品的共通之处是将 AI 生图模型引入拍摄过程,让用户在 AI 的帮助下,一键“出片”。
当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。
LayerComposer革新了个性化图像生成,让用户像在Photoshop里一样自由操控元素位置、大小,解决传统方法交互性与多主体扩展难题,实现更自然、高效的创作,推动个性化生成迈向主动交互新阶段。
近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题: