AI资讯新闻榜单内容搜索-图像生成

首次！流匹配模型引入GRPO，GenEval几近满分，组合生图能力远超GPT-4o

流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能，已成为图像生成（Stable Diffusion, Flux）和视频生成（可灵，WanX，Hunyuan）领域最先进模型的训练方法。然而，这些最先进的模型在处理包含多个物体、属性与关系的复杂场景，以及文本渲染任务时仍存在较大困难。

来自主题: AI技术研报

11568 点击 2025-05-14 10:19

谷歌Gemini火力全开！实测：原生图像生成新升级确实强

谷歌Gemini原生图像生成功能又双叒升级了！

来自主题: AI产品测评

10046 点击 2025-05-09 20:49

ICLR 2025 | 无需训练加速20倍，清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

扩散模型（Diffusion Models）近年来在生成任务上取得了突破性的进展，不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现，推动了文本到图像、视频生成的技术革新。然而，标准扩散模型的设计通常只适用于从随机噪声生成数据的任务，对于图像翻译或图像修复这类明确给定输入和输出之间映射关系的任务并不适合。

来自主题: AI技术研报

9296 点击 2025-05-08 14:23

GPT-4o图像生成的「核燃料」找到了！万字长文拆解潜在变量，网友：原来AI在另一个维度作画

上个月， GPT-4o 的图像生成功能爆火，掀起了以吉卜力风为代表的广泛讨论，生成式 AI 的热潮再次席卷网络。

来自主题: AI技术研报

8918 点击 2025-05-06 16:59

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像？ID-Patch带来新解法

扩散模型（Diffusion Models, DMs）如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力，它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。

来自主题: AI技术研报

8684 点击 2025-05-03 14:52

UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案，在一个框架内兼顾了图文理解与图像生成任务，并在多个权威评测中取得了领先的性能表现。

来自主题: AI技术研报

8341 点击 2025-04-25 09:56

刚刚，OpenAI最强图像生成API上线，一张图1毛5

OpenAI推出图像生成API，低至0.02美元/张，支持多模态定制。

来自主题: AI资讯

10507 点击 2025-04-24 20:53

刚刚，OpenAI图像生成模型API发布，Token计价，一张图花掉1.4元

上个月，OpenAI 在 ChatGPT 中引入了图像生成功能，广受欢迎：仅在第一周，全球就有超过 1.3 亿用户创建了超过 7 亿张图片。就在刚刚，OpenAI 又宣布了一个好消息：他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1，让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。

来自主题: AI资讯

10283 点击 2025-04-24 09:44

可媲美GPT-4o的开源图像生成框架来了！腾讯联手InstantX解决角色一致性难题

GPT-4o带火的漫画风角色生成，现在有了开源版啦！

来自主题: AI技术研报

9722 点击 2025-04-23 15:02

纯自回归图像生成模型开源来了，复旦联手字节seed共同捍卫自回归

基于Transformer的自回归架构在语言建模上取得了显著成功，但在图像生成领域，扩散模型凭借强大的生成质量和可控性占据了主导地位。

来自主题: AI技术研报

9485 点击 2025-04-19 15:01