火爆全球的AI音频大模型,最新技术细节揭秘
火爆全球的AI音频大模型,最新技术细节揭秘Stable Audio Open:开源文本转音频模型。
Stable Audio Open:开源文本转音频模型。
Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。
Fidelity-Scalability-Controllability-Accessibility (真实度-可扩展性-可控性-可用性)是生成式 AI 领域一个很好的研究方法论。会有更多像AnimateDiff这样的技术推动视频生成的广泛应用。
斯坦福炒虾机器人团队时隔半年再出新作,谷歌最强Gemini 1.5 Pro加持,Mobility VLA让机器人在836平方米的办公室里轻松导航。
将分析师此前需要2-3个小时完成的工作缩短为2-3分钟。
Stable Assistant还支持草图生成完整图片,一键“毛坯”变“精装”。
该文章的作者团队来自于斯坦福大学,共同第一作者团队Mert Yuksekgonul,Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang
Character AI 也要走上 Stability AI 的老路了?
加速药物开发和临床试验的效率。
此前Stability AI曾陷入债务危机,经营亏损,多位高层人员流失。