
硅谷顶级VC如何看语音AI?Greylock合伙人揭秘语音Agent构建的三层策略
硅谷顶级VC如何看语音AI?Greylock合伙人揭秘语音Agent构建的三层策略我们每天都在用语音交流,从早上叫醒Siri到晚上和家人通话,语音似乎是人类最直观的交流方式。但当我们试图让机器也用这种方式与我们互动时,却发现背后隐藏着巨大的技术挑战。
我们每天都在用语音交流,从早上叫醒Siri到晚上和家人通话,语音似乎是人类最直观的交流方式。但当我们试图让机器也用这种方式与我们互动时,却发现背后隐藏着巨大的技术挑战。
微软紧跟OpenAI的节奏,在同一天也亲自下场发布了微软自研的两个大模型:语音模型MAI-Voice-1和通用模型MAI-1-preview。对于这位老大哥,亲自下场做的第一个AI大模型,效果究竟怎么样?
OpenAI凌晨发布最新生产级别语音模型和API。Realtime API实现语音直接处理,支持图像输入、远程MCP服务器与SIP打电话,极大简化语音智能体构建;而新一代语音到语音模型gpt-realtime,在音质、理解力、指令遵循和函数调用上全面提升,语音几乎媲美真人,还能多语种切换与细腻表达。
一个月前在德国被50多家投资人拒绝的AI创业公司,搬到硅谷后却能在一周内完成470万美元的融资,而且投资人几乎全部说"yes"。这不是什么励志鸡汤故事,而是Leaping AI创始人Kevin Wu的真实经历。
情感语音交互模型初创公司宇生月伴近日完成新一轮融资,由靖亚资本和小苗朗程领投,菡源资产(上海交大母基金)跟投,心流资本FlowCapital担任长期财务顾问。本轮融资将用于语音模型的持续优化、产品矩阵拓展及国际化商业落地。作为国内首家聚焦“情感语音交互”的模型公司,宇生月伴正重新定义AI时代的语音交互范式。
一家名为Palabra AI 的初创公司正在开发 AI 语音翻译引擎,致力于解决教学大型语言模型(LLMs)理解多种语言这一颇具挑战性的难题。
今天,MiniMax发布新一代语音生成模型Speech 2.5,再次刷新全球最强语音模型的上限。
习以为常的语音输入功能,焕发第二春?
WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中
AI语音成大厂必争之地 打开字节、阿里们的多模态能力地图,每块宝藏都标着"语音”。