实测豆包音频生成模型:语音模型的Seedance2.0时刻来了!
实测豆包音频生成模型:语音模型的Seedance2.0时刻来了!火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0(Seed-Audio 1.0)。
搜索
火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0(Seed-Audio 1.0)。
把 VoiceVault 的转录引擎从 Whisper 迁移到 FunASR(sherpa-onnx),中文识别速度提升 3x,不再需要 500MB 的模型文件。但"切个后端"这件听起来很简单的事,让我在 GitHub Release 的 404、Tauri 白屏、trait object 生命周期和 CSP 策略里翻滚了一整天。
当所有人都在盯着通用大模型时,Voice AI 这条相对安静的赛道里,也开始出现一些值得注意的新模型。最近,一家名为 Hojo 的创业团队公开披露了一组语音识别测试结果,似乎有成为「黑马」的趋势。
最近看到了一个音频转文字的 AI 工具站:turboscribe.ai。
Boson AI 与 SGLang-Omni 团队宣布,SGLang-Omni 已完成对 Higgs Audio v3 TTS 的端到端 Serving 支持。作为一家成立于 2023 年的 AI 基础设施公司,李沐与 Alex Smola共同创立了 Boson AI,聚焦大模型时代的系统与基础设施创新。
Apple 必须面对它过去三年最难堪的一个问题——为什么全世界最贵的智能手机,装着一个最蠢的 AI 助手?当地时间 5 月 28 日,在发布会前十天,外媒率先曝光了答案。
据一位熟悉该收购的人士透露,OpenAI 在一月收购了 Weights.GG, 这是一家开发了名为 Replay 的 AI 语音克隆工具的小型创业公司。大约六名员工加入了 OpenAI,OpenAI 收购了该创业公司的知识产权,但并不打算整合该创业公司的产品。
豆包输入法的Mac版,终于正式上线了。 我自己已经内测使用了快1个月了,但是我等这一天,也真的等了好久好久。因为这篇文章我想写很久了,但是一直没写就是因为,对于大众用户来说,之前还一直没有一个比较好的产品能让大家去随便的体验语音输入法,所以一直在等豆包输入法上线,然后再发,这样其实所有人就都可以开始把这种方式用起来了。
语音合成这两年发展迅速:把一段话顺顺当当地念完,已经不算难事;难的是该慢的时候慢,该顿的时候顿,该强调的时候真能把重点托出来。
Noiz AI是一家低调务实的音频AI公司,由前Meta、字节员工,及清华、北大、港科大校友联合创立。团队大部分成员是00后,清北校友占据半数左右。