
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%杜克大学和 Adobe 最近发布的 VERA 研究,首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统,使用了 2,931 道专门设计的测试题。
杜克大学和 Adobe 最近发布的 VERA 研究,首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统,使用了 2,931 道专门设计的测试题。
Keplar 是一家市场调研初创公司,该公司运用语音 AI 技术进行客户访谈,能以远低于传统调研咨询公司的成本,为客户提供更快速的分析报告。
两年过去,ElevenLabs 已经融资 2.6 亿美元,网站访问量超 2500 万,稳坐 AI Web 全球 Top50 榜单,成为 AI 语音赛道的头部创企。而 Speechify 却渐渐“掉队”,榜单中难觅身影,而作为一个 AI 企业,它仅在 2017 和 2020 年有过两次融资,近几年也没有传出任何融资消息。
智东西9月15日报道,今天,阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块,针对性优化了“幻觉”、“串语种”等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%,下降幅度接近70%。
一句语音指令,复杂操作自动完成。安卓正迎来一场由AI语音快捷指令主导的交互革命,Shortcuts for Android (SFA) 不仅填补了与iOS快捷指令的差距,更正在重新定义人们与移动设备的互动方式。
我们每天都在用语音交流,从早上叫醒Siri到晚上和家人通话,语音似乎是人类最直观的交流方式。但当我们试图让机器也用这种方式与我们互动时,却发现背后隐藏着巨大的技术挑战。
微软紧跟OpenAI的节奏,在同一天也亲自下场发布了微软自研的两个大模型:语音模型MAI-Voice-1和通用模型MAI-1-preview。对于这位老大哥,亲自下场做的第一个AI大模型,效果究竟怎么样?
OpenAI凌晨发布最新生产级别语音模型和API。Realtime API实现语音直接处理,支持图像输入、远程MCP服务器与SIP打电话,极大简化语音智能体构建;而新一代语音到语音模型gpt-realtime,在音质、理解力、指令遵循和函数调用上全面提升,语音几乎媲美真人,还能多语种切换与细腻表达。
一个月前在德国被50多家投资人拒绝的AI创业公司,搬到硅谷后却能在一周内完成470万美元的融资,而且投资人几乎全部说"yes"。这不是什么励志鸡汤故事,而是Leaping AI创始人Kevin Wu的真实经历。
情感语音交互模型初创公司宇生月伴近日完成新一轮融资,由靖亚资本和小苗朗程领投,菡源资产(上海交大母基金)跟投,心流资本FlowCapital担任长期财务顾问。本轮融资将用于语音模型的持续优化、产品矩阵拓展及国际化商业落地。作为国内首家聚焦“情感语音交互”的模型公司,宇生月伴正重新定义AI时代的语音交互范式。