AI资讯新闻榜单内容搜索-TTS

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: TTS
速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

播客录制和编辑平台 Podcastle ,如今也加入了 AI 文本转语音竞赛,发布了其名为 Asyncflow v1.0 的 AI 模型。同时,还将为开发者提供 API,使他们能够直接将文本转语音模型集成到自己的应用中。

来自主题: AI资讯
5626 点击    2025-03-06 10:14
估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?

估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?

估值33亿美金的AI语音合成独角兽Eleven Labs是怎么跑出来的?

ElevenLabs 似乎无处不在。2025年 1 月,Lex Fridman在基辅对乌克兰总统Zelenskyy进行了长达三小时的采访,采访中使用了ElevenLabs 提供的AI英语、乌克兰语和俄语翻译,完美地保留了泽连斯基的语音和语调。这是AI消除语言障碍能力的一次引人注目的展示。

来自主题: AI资讯
7973 点击    2025-02-17 09:29
Hume AI发布全能语音引擎OCTAVE:文本秒变真人声,克隆人格特征

Hume AI发布全能语音引擎OCTAVE:文本秒变真人声,克隆人格特征

Hume AI发布全能语音引擎OCTAVE:文本秒变真人声,克隆人格特征

Hume AI近日推出了一款名为OCTAVE的全新文本与语音引擎,该引擎能够仅凭简单的文本描述或一段5秒的语音录音,即可生成或克隆出逼真的语音和人格特质,为虚拟角色和人机交互带来了无限可能。

来自主题: AI资讯
7166 点击    2024-12-25 09:44
深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

OpenAI的实时API支持低延迟、双向音频流,使得多模态AI应用(如语音对话Agent)得以实现。它通过WebSocket连接管理对话状态,并提供短语结束检测和语音活动检测(VAD)功能,大大简化了实时语音应用的开发。

来自主题: AI资讯
7359 点击    2024-12-13 17:05
国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。

来自主题: AI技术研报
3152 点击    2024-10-30 13:57
SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

今天,Meta 分享了一系列研究和模型,这些研究和模型支撑 Meta 实现高级机器智能(AMI)目标,同时也致力于开放科学和可复现性。

来自主题: AI技术研报
6797 点击    2024-10-19 14:07
名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 FireRedTTS 语音合成系统,并分享了在短视频配音及聊天式语音对话等应用的一些实践。

来自主题: AI技术研报
5490 点击    2024-09-07 17:32
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

来自主题: AI技术研报
7069 点击    2024-09-07 11:04