让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。
在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。
在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。
AI一键成片神器来临!今天,Vidu Agent开启全球内测,一句话复刻爆款,从广告到创意短片,分镜级可控一键短片。
今日,美团正式发布并开源图像生成模型LongCat-Image,这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型,重点瞄准文生图与单图编辑两大核心场景。在实际体验中,它在连续改图、风格变化和材质细节上表现较好,但在复杂排版场景下,中文文字渲染仍存在不稳定的情况。
现在,终于也有国产 AI 接力,进一步把这条路跑通。Vidu Q2 最新上线的文生图、参考生图、图像编辑功能就是这个路子:卷完「好看」,它开始死磕「稳定性」。这次 Vidu Q2 直接把技能点全加在了「一致性」上。什么概念?就是把「人设崩坏」、「产品变形」、「画风突变」这些老大难问题统统按在地上摩擦。
6B小模型,首日下载量高达50万次,上线不到两天直接把HuggingFace两个榜单都冲了个第一。
谷歌乘胜追击!Gemini 3 Pro好评如潮没两天,最强文生图模型Nano Banana也推出Pro版本。
Gemini 3 Pro刚炸完,谷歌又在深夜扔出了「AI图像新神」Nano Banana Pro!它用像素级的恐怖细节和完美的汉字渲染告诉世界,谁才是AI生图真正的王者。
扩散模型「去噪」,是不是反而忘了真正去噪?何恺明携弟子出手,回归本源!
就在前两天,深圳一家名为 Inspire Curve 的创企设计出的 AI 概念相机,获得了有“设计界奥斯卡”美誉的 iF 设计奖。从媒体报道给出的信息看,两款产品的共通之处是将 AI 生图模型引入拍摄过程,让用户在 AI 的帮助下,一键“出片”。