
OpenAI深夜发布3个全新的语音模型,一手实测都在这了。
OpenAI深夜发布3个全新的语音模型,一手实测都在这了。就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
如果你让当今的 LLM 给你生成一个创意时钟设计,使用提示词「a creative time display」,它可能会给出这样的结果:
科技圈再掀波澜,一家名为Graphite的纽约人工智能初创公司,正式名称为Screenplay Studios Inc.,今日宣布成功斩获高达5200万美元的B轮融资,为这家专注于颠覆传统代码审查模式的新星注入了强劲动力。
从自动驾驶、机器人导航,到AR/VR等前沿应用,SLAM都是离不开的核心技术之一。
跨模态因果对齐,让机器更懂视觉证据!
现在是 2025 年,新论文要以博客形式出现。
据外媒 TechCrunch 报道,OpenAI 近日在一项新的政策提案中,将 DeepSeek 描述为被官方资助和控制的实体,并呼吁对该机构及类似机构开发的中国 AI 模型实施禁令。OpenAI 在提案中指出:「虽然目前美国在 AI 领域仍保持领先,但 DeepSeek 的出现表明,这一领先优势并不大,且正在缩小。」
根据TechCrunch的统计,2024年共有49家初创公司完成了融资轮次,融资金额达到1亿美元或以上。去年有三家公司超过了一轮“超级融资”(mega-round),而七家公司的融资额达到10亿美元或更高。
起猛了,DeepSeek开口说话了。而且是超低延迟实时秒回,还可以随时打断的那种,先来看一段VCR:DeepSeek以及其他任意大模型接入这样的高质量对话引擎,全程只需要两行代码。
我们陆续知道她已经加入了一家AI创业公司,带起了自己的小团队,但业务方向还在摸索。去年12月,我们看到她开始在朋友圈和出海社群中做“200个想赚钱的美国大学生”的需求征集,2个月后这个需求调研落地为一个完整的素人种草平台XcreateAI。