
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。
来自主题: AI技术研报
7259 点击 2024-05-12 15:29
基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。