一转眼,2024 年已经过半。我们不难发现,AI 尤其是 AIGC 领域出现一个越来越明显的趋势:文生图赛道进入到了稳步推进、加速商业落地的阶段,但同时仅生成静态图像已经无法满足人们对生成式 AI 能力的期待,对动态视频的创作需求前所未有的高涨。
一转眼,2024 年已经过半。我们不难发现,AI 尤其是 AIGC 领域出现一个越来越明显的趋势:文生图赛道进入到了稳步推进、加速商业落地的阶段,但同时仅生成静态图像已经无法满足人们对生成式 AI 能力的期待,对动态视频的创作需求前所未有的高涨。
DiT 都能用,生成视频无质量损失,也不需要训练。
2024 年 5 月,DreamTech 官宣了其高质量 3D 生成大模型 Direct3D,并公开了相关学术论文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。
人类的教育方式,对大模型而言也很适用。
高质量图像编辑的方法有很多,但都很难准确表达出真实的物理世界。 那么,Edit the World试试。
基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。
当我们感慨 AI 快把人类一锅端了时,有大聪明发现了 AI 的一生之敌——弱智吧。
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。
今年美国首个大型科技公司IPO来了:当地时间3月21日,著名社交媒体网站Reddit在纽交所敲钟上市。股票代码「RDDT」,以每股34美元出售2200万股,募资7.48亿美元。并在首日交易中一鸣惊人,盘中最高暴涨62.9%至每股55.39美元,最终以50.44美元股价高收。也使得公司市值从预估的65亿美元飙到95亿美元,完成了它强劲的IPO首秀。
GraphEdit方法可以有效地去除图网络中的噪声连接,还能从全局视角识别节点间的依赖关系,在不同的实验设置中都被验证为有效且稳健。