
DeepSeek会说话了!只要2行代码,这家公司让任意大模型秒开口
DeepSeek会说话了!只要2行代码,这家公司让任意大模型秒开口在AI行业新诞生的「多模态交互」赛道上,声网发布的「对话式AI引擎」,让所有文本大模型秒变多模态,具备实时语音对话能力,补齐了大模型「失语」的短板。
在AI行业新诞生的「多模态交互」赛道上,声网发布的「对话式AI引擎」,让所有文本大模型秒变多模态,具备实时语音对话能力,补齐了大模型「失语」的短板。
早上MiniMax上线TTS,字节上线AI编程Trae;下午字节全量上线豆包实时语音;晚上DeepSeek开源R1性能直接对标OpenAI o1,然后Kimi的k1.5直接正面硬刚。昨天的余温还没过,今天下午,腾讯混元又悄悄开了个闭门发布会,作为混元的老基友,我自然是受邀参加期期不落。
就在刚刚,豆包的超级实时语音全量上线了。
OpenAI Realtime API 的「说明书」。
今天,「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了,人人可玩的那种。
家人们!OpenAI 这 12 天的连续剧大家都追完了吗?别急着下线!
你是不是以为发了GPT4.5?但很抱歉,今天只是发布了o1的API以及实时语音的新玩意。 还记得前段时间的OpenAI的DevDay吗?那上面曾经说过会更新OpenAI的API,现在期货交割了!这次OpenAI表现很好,才用了短短的一个多月就完成了交割,值得鼓励!(我是在吹不下去了。。。)
今天是美国的周一,本来以为会跟上周一样,挑选周一发个大货,毕竟上周就有爱好探索的网友发现 GPT4o 好像有了更新,已经开始说自己是 GPT4.5 了。
“它前进着,又跨过了新的一级台阶,耳边仿佛传来由远及近的低语:前方,即是世界。”
OpenAI的实时API支持低延迟、双向音频流,使得多模态AI应用(如语音对话Agent)得以实现。它通过WebSocket连接管理对话状态,并提供短语结束检测和语音活动检测(VAD)功能,大大简化了实时语音应用的开发。