
更美图像生成、直出分钟级视频,国产自研DiT架构的越级之旅
更美图像生成、直出分钟级视频,国产自研DiT架构的越级之旅一转眼,2024 年已经过半。我们不难发现,AI 尤其是 AIGC 领域出现一个越来越明显的趋势:文生图赛道进入到了稳步推进、加速商业落地的阶段,但同时仅生成静态图像已经无法满足人们对生成式 AI 能力的期待,对动态视频的创作需求前所未有的高涨。
一转眼,2024 年已经过半。我们不难发现,AI 尤其是 AIGC 领域出现一个越来越明显的趋势:文生图赛道进入到了稳步推进、加速商业落地的阶段,但同时仅生成静态图像已经无法满足人们对生成式 AI 能力的期待,对动态视频的创作需求前所未有的高涨。
只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。
文生图也有自己的prompt优化工具了。
本文提出了解决一般性编辑任务的统一框架!近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月!
超越扩散模型!自回归范式在图像生成领域再次被验证——
如何生成高难度、指令超复杂的视频呢?
OpenAI在5月14日推出了新一代人工智能模型GPT-4o,支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。仅仅一天后,谷歌就在新一届I/O开发者大会上发布、更新了十多款产品,包括AI助手Project Astra、文生图模型Imagen3、对标Sora的文生视频模型Veo,以及备受瞩目的大模型Gemini 1.5 Pro的升级版。
ControlNet作者新项目,居然也搞起大模型和Agent了。
随着大模型产品可图的正式发布,快手也将持续为用户带来更丰富有趣的AI互动新体验。
七年前,一张帅气军装照的H5活动,成为现象级刷屏朋友圈的“始祖”。