AI资讯新闻榜单内容搜索-语音模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语音模型
语音模型公司做AI眼镜,拿下了红杉领投的2.5亿美元?

语音模型公司做AI眼镜,拿下了红杉领投的2.5亿美元?

语音模型公司做AI眼镜,拿下了红杉领投的2.5亿美元?

TechCrunch 报道,之前一直以 AI 语音初创公司示人的 Sesame,完成了 2.5 亿美元的 B 轮融资,投资方包括红杉资本、Spark Capital 及其他未公开的投资者。随后,Sesame 创始人 Brendan Iribe 也在个人社媒账号上发帖,证实该消息。

来自主题: AI资讯
8895 点击    2025-10-23 22:38
即梦悄悄上线数字人1.5,多人群演、听声变脸,还能跑会跳

即梦悄悄上线数字人1.5,多人群演、听声变脸,还能跑会跳

即梦悄悄上线数字人1.5,多人群演、听声变脸,还能跑会跳

数字人这赛道也越来越卷了, 大模型可以写剧本,语音模型可以配出百变语气,当我越来越不满足于只是把口型对上这件事之后, 那这个只会坐着、不能走路、表情都是提前预设好的、台词数字人,会如何进化?

来自主题: AI资讯
7403 点击    2025-09-30 15:55
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的“涌现”行为。

来自主题: AI资讯
7874 点击    2025-09-21 19:22
B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

最近在 B 站上,你是否也刷到过一些 “魔性” 又神奇的 AI 视频?比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音色,连情感和韵律都做到了高度还原!更让人惊讶的是,它们居然全都是靠 AI 生成的!

来自主题: AI技术研报
6630 点击    2025-09-18 15:54
突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响

突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响

突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响

微软紧跟OpenAI的节奏,在同一天也亲自下场发布了微软自研的两个大模型:语音模型MAI-Voice-1和通用模型MAI-1-preview。对于这位老大哥,亲自下场做的第一个AI大模型,效果究竟怎么样?

来自主题: AI资讯
8104 点击    2025-08-29 16:44
今夜,语音模型第一次超越人类!OpenAI再现Her时刻,95后华人研究员坐镇

今夜,语音模型第一次超越人类!OpenAI再现Her时刻,95后华人研究员坐镇

今夜,语音模型第一次超越人类!OpenAI再现Her时刻,95后华人研究员坐镇

OpenAI凌晨发布最新生产级别语音模型和API。Realtime API实现语音直接处理,支持图像输入、远程MCP服务器与SIP打电话,极大简化语音智能体构建;而新一代语音到语音模型gpt-realtime,在音质、理解力、指令遵循和函数调用上全面提升,语音几乎媲美真人,还能多语种切换与细腻表达。

来自主题: AI资讯
7823 点击    2025-08-29 14:20
独家|上交投资的首家语音大模型宇生月伴完成数千万元融资,加速走向全球,技术指标全面超越11Labs

独家|上交投资的首家语音大模型宇生月伴完成数千万元融资,加速走向全球,技术指标全面超越11Labs

独家|上交投资的首家语音大模型宇生月伴完成数千万元融资,加速走向全球,技术指标全面超越11Labs

情感语音交互模型初创公司宇生月伴近日完成新一轮融资,由靖亚资本和小苗朗程领投,菡源资产(上海交大母基金)跟投,心流资本FlowCapital担任长期财务顾问。本轮融资将用于语音模型的持续优化、产品矩阵拓展及国际化商业落地。作为国内首家聚焦“情感语音交互”的模型公司,宇生月伴正重新定义AI时代的语音交互范式。

来自主题: AI资讯
8678 点击    2025-08-19 22:13
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。

来自主题: AI技术研报
8329 点击    2025-07-16 16:30