
8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功
8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。
来自主题: AI资讯
9679 点击 2024-07-06 19:57
最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。
GPT-4o或许还得等到今年秋季才对外开放。不过,由法国8人团队打造的原生多模态Moshi,已经实现了接近GPT-4o的水平,现场演示几乎0延迟,AI大佬纷纷转发。
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT,一种在掩码生成序列建模方法。