HiDream-O1-Image-1.5 刷新国产图像生成模型纪录:砍掉 VAE,是图像模型的未来吗?
HiDream-O1-Image-1.5 刷新国产图像生成模型纪录:砍掉 VAE,是图像模型的未来吗?文生图的"慢思考",到底有没有用?
搜索
文生图的"慢思考",到底有没有用?
近年来,文生图模型的能力快速提升。从 Stable Diffusion 到 FLUX、Qwen-Image,扩散模型已经能够生成高质量图像,也能处理越来越复杂的文本提示。
2K 图像 210ms 解码,4K 细节直接生成,传统「解码 + 超分」流水线可能要被重写了。
最近,有网友发现了 ChatGPT 一个奇怪的图片 bug。给它下面的提示词:
UiT 架构探路者,底牌还没亮。
Sam Altman 今天在 X 上扔出一个数字:ChatGPT Images 2.0 在印度已经生成超过 10 亿张图。距离产品发布只有 27 天。TechCrunch 和第三方数据验证了印度确实是最大市场——但全球增长远没有那么均匀,这更像一场区域性起飞。
当「地表最强生图」遇上「最强视频生成」,这对王炸组合再一次点燃了网友们的创作激情。
近日,字节跳动智能创作部门(Intelligent Creation Lab)提出新作 DreamLite,一个主干网络仅有 0.39B 参数的轻量级统一扩散模型,在单一网络内同时支持文生图(Text-to-Image) 和图像编辑(Text-guided Image Editing)两个任务,是目前已知首个实现这一能力的端侧模型。
各种单点的 AI 生图、生视频工具,我们平时已经聊过很多了。关注行业风向的朋友应该能察觉到,现在的 AIGC 正在经历一个分水岭:大家不再满足于用 AI 跑出一张精美的图,或者几秒钟用来炫技的动态片段。
用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。