
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归SOTA 语音合成效果。文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。
SOTA 语音合成效果。文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。
3D 生成领域迎来新的「SOTA 级选手」,支持商用和非商用。Stability AI 的大模型家族来了一位新成员。昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Video 3D」(简称 SV3D)。
大SOTA有大红利,垂类SOTA也有垂类红利。在尚未被超越的这段时间,SOTA企业必须像OpenAI一样,紧紧抓住红利窗口。
来自零一万物最新研发的高性能向量数据库笛卡尔(Descartes),登顶权威测评榜单。
谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。
谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。
距离YOLOv8发布仅1年的时间,v9诞生了!
继 2023 年 1 月 YOLOv8 正式发布一年多以后,YOLOv9 终于来了!
近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E 3
多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。