
Stability AI科学家Andreas Blattman:AI视频的挑战性在哪?
Stability AI科学家Andreas Blattman:AI视频的挑战性在哪?本文编译自播客节目a16z。Stability AI的科学家Andreas Blattmann和Robin Rombach与a16z的合伙人Anjney Midha共同探讨从文本到视频人工智能的前沿世界。
本文编译自播客节目a16z。Stability AI的科学家Andreas Blattmann和Robin Rombach与a16z的合伙人Anjney Midha共同探讨从文本到视频人工智能的前沿世界。
众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。
Midjourney 把 Stability AI 拉入黑名单了,禁止后者所有员工使用其软件,直至另行通知。
很快啊,“文生图新王”Stable Diffusion 3的技术报告,这就来了。
Ideogram凭借不输Midjourney的生图能力和遥遥领先的图片中文字渲染能力,获得了包括Jeff Dean和Karpathy在内一众大佬的8000万美元融资,文生图这条离钱最近的AI赛道又加入了一名重量级选手。
有人用Midjourney给生物学论文配图,画得漏洞百出,结果还一路顺畅成功发表???
近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E 3
主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。
不得不说,现在拍写真真是“简单到放肆”了。真人不用出镜,不用费心凹姿势、搞发型,只需一张本人图像,等待几秒钟,就能获得7种完全不同风格:
从广角视图到微距拍摄,每一步由你来决定。