
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。
上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。
据 TechCrunch 报道,Recraft,这家神秘图像模型背后的初创公司,去年在一个备受尊敬的行业基准测试中击败了 OpenAI 的 DALL-E 和 Midjourney,已完成由 Accel 领投的 3000 万美元 B 轮融资。
Midjourney v7上线后,配套的角色参考(cref)功能一直迟迟未公布。当时我就有个预感,也在评测文章里说过:这可能是个全新功能的伏笔。果然,今天Midjourney正式公布「Omni-Reference」,即「全向参考」,或翻译成「万能参考」,配合--oref、--ow两个参数使用,这不是Character Reference的v7升级版,而是一次全面的参考进化。
原本的我:我把话撂这儿了,就是DeepSeek R2来了,我都不更!有事假期结束再说。 看完豆包Case的我:哎嘿真香~不是我卷朋友们,实在是它这波真的很强,非常强,4o在我这里暂时都没那么香了。废话咱就不多说了,还是先简介然后上案例!
我又发现好东西了!前几天在 Artificial Analysis 上发现了一个新模型:17B 参数的国产模型 HiDream-I1排到第二名,和 GPT-4o 得分非常接近!
在线平面设计平台Freepik 于周二发布了一款新型“开放”AI 图像模型,该公司称该模型仅基于商业授权、“适合工作环境”的图片进行训练。
追星分泌多巴胺,却也伴随大量做数据等考验精神耐力和体力的绝望劳动。应援、做数据,为自担辗转各大平台控评,以及为每一次线下见面设计应援物,每一项都耗损心神,靠饭圈女孩用爱发电。 随着AI生成图文的功能强大,一些饭圈女孩被解救出来。
自回归模型,首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle,显著减少了计算中的视觉Token数量,提升效率并支持高分辨率图像合成。
阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
OpenAI推出图像生成API,低至0.02美元/张,支持多模态定制。