AI资讯新闻榜单内容搜索-语音模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语音模型
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成

速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成

速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成

两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似于 Google 的 NotebookLM 的播客风格的剪辑。

来自主题: AI资讯
7381 点击    2025-04-23 15:21
AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

开源语音模型Orpheus让LLM涌现出人类情感!在A100 40GB显卡上,30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。

来自主题: AI技术研报
6221 点击    2025-04-15 15:26
给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报
6636 点击    2025-03-24 16:01
OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。

来自主题: AI资讯
9647 点击    2025-03-21 08:27
速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

速递|Podcastle推出超450种AI文本转语音模型,是竞对价格的一半

播客录制和编辑平台 Podcastle ,如今也加入了 AI 文本转语音竞赛,发布了其名为 Asyncflow v1.0 的 AI 模型。同时,还将为开发者提供 API,使他们能够直接将文本转语音模型集成到自己的应用中。

来自主题: AI资讯
6025 点击    2025-03-06 10:14
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。

来自主题: AI技术研报
6095 点击    2025-02-07 16:02
ChatGPT Voice之父离职创办语音模型公司,种子轮即获a16z 4000万美金,估值数亿美元

ChatGPT Voice之父离职创办语音模型公司,种子轮即获a16z 4000万美金,估值数亿美元

ChatGPT Voice之父离职创办语音模型公司,种子轮即获a16z 4000万美金,估值数亿美元

WaveForms致力于开发音频大模型(LLMs),通过创新的端到端音频处理技术,实现更加实时、类人化且情感智能化的语音交互。与传统语音模型不同,WaveForms的音频模型不是语音转文本再转语音,而是能够直接处理音频,实现更自然的对话和情感互动。

来自主题: AI资讯
4292 点击    2025-01-22 10:01
MiniMax海螺语音全球同步上线,文生音能力赶超ElevenLabs

MiniMax海螺语音全球同步上线,文生音能力赶超ElevenLabs

MiniMax海螺语音全球同步上线,文生音能力赶超ElevenLabs

继视频、文本模型家族在新年迎来新成员后,MiniMax带来了全新升级的T2A-01系列语音模型,并全球同步上线海螺语音产品。与传统语音生成技术相比,全新升级的T2A-01系列语音模型不仅具有音质稳定清晰、韵律自然、情绪精准表达、高准确度等特点。

来自主题: AI资讯
8512 点击    2025-01-20 14:38
PlayAI获得2100万美元种子资金专注类人AI语音模型

PlayAI获得2100万美元种子资金专注类人AI语音模型

PlayAI获得2100万美元种子资金专注类人AI语音模型

人工智能语音初创公司PlayAI宣布在种子轮融资中筹集了2100万美元。该公司表示,将利用这笔资金投资于其生成式人工智能(GenAI)语音模型和语音代理平台。

来自主题: AI资讯
5460 点击    2024-12-01 11:32
喝点VC|BVP语音AI最新研究:语音到语音模型突破使语音转文本模型成为历史,语音AI迎来新一波创业机遇

喝点VC|BVP语音AI最新研究:语音到语音模型突破使语音转文本模型成为历史,语音AI迎来新一波创业机遇

喝点VC|BVP语音AI最新研究:语音到语音模型突破使语音转文本模型成为历史,语音AI迎来新一波创业机遇

语音AI近期的发展不仅仅是软件用户界面的升级,它还正在改变企业与客户之间的连接方式。

来自主题: AI资讯
5795 点击    2024-11-25 14:54