
360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!
360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!现有的可控Diffusion Transformer方法,虽然在推进文本到图像和视频生成方面取得了显著进展,但也带来了大量的参数和计算开销。
现有的可控Diffusion Transformer方法,虽然在推进文本到图像和视频生成方面取得了显著进展,但也带来了大量的参数和计算开销。
一张图、一句提示词,万物都能乱入你随手拍的视频。
现在,要想往视频里毫无违和感地添加任何东西,只需一张图就够了。
可控视频生成,对于自动驾驶技术而言,同样非常重要。
昨日(12 月 9 日),知名社区 Reddit 发布公告,正式推出 AI 驱动的搜索工具 Reddit Answers,Reddit希望通过该功能优化平台的信息检索功能,为用户提供更高效便捷的信息获取途径。(手动狗头:作为一个内容站,没有AI搜索怎么能行呢。
Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作,DiT 模型抛弃了传统的 U-Net 扩散架构,转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众,后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。
11 月 11 日,字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit,主打一句话轻松 P 图。
在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!
性能不输SOTA模型,计算开销却更低了——
视频生成模型大乱斗