AI资讯新闻榜单内容搜索-tts

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: tts
深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

OpenAI的实时API支持低延迟、双向音频流,使得多模态AI应用(如语音对话Agent)得以实现。它通过WebSocket连接管理对话状态,并提供短语结束检测和语音活动检测(VAD)功能,大大简化了实时语音应用的开发。

来自主题: AI资讯
7275 点击    2024-12-13 17:05
国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。

来自主题: AI技术研报
3095 点击    2024-10-30 13:57
SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

SAM 2.1上新、Lingua代码库发布,一大波Meta开源工具来袭

今天,Meta 分享了一系列研究和模型,这些研究和模型支撑 Meta 实现高级机器智能(AMI)目标,同时也致力于开放科学和可复现性。

来自主题: AI技术研报
6760 点击    2024-10-19 14:07
名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 FireRedTTS 语音合成系统,并分享了在短视频配音及聊天式语音对话等应用的一些实践。

来自主题: AI技术研报
5452 点击    2024-09-07 17:32
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

来自主题: AI技术研报
6990 点击    2024-09-07 11:04
首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

自 2024 年 GPT-4o 出现以来,业内各公司纷纷投入巨大的资源进行 TTS 大模型的研发。近几个月内,中文语音合成大模型如雨后春笋般涌现,如 chattts、seedtts、cosyvoice 等。

来自主题: AI资讯
5445 点击    2024-08-13 18:34
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

继去年初的第一代VALL-E模型之后,微软最近又上新了VALL-E 2模型,标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。

来自主题: AI技术研报
9731 点击    2024-07-24 21:16