OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!
7874点击    2024-12-18 08:50

省流版:

  • o1的API:支持函数调用、开发者消息、结构化输出和视觉功能。
  • 最新版的o1-2024-12-17:更快的推理速度,旨在处理复杂的多步骤任务,并提高了准确性。已经更新到ChatGPT
  • 实时 API更新:包括简单的 WebRTC 集成、GPT-4o 音频价格降低 60% 以及以之前音频价格的十分之一支持 GPT-4o mini。
  • 偏好微调(PFT):一种新的模型定制技术,可以更轻松地根据用户和开发人员的偏好定制模型。
  • 新的 Go 和 Java SDK


你是不是以为发了GPT4.5?


但很抱歉,今天只是发布了o1的API以及实时语音的新玩意。


还记得前段时间的OpenAI的DevDay吗?那上面曾经说过会更新OpenAI的API,现在期货交割了!这次OpenAI表现很好,才用了短短的一个多月就完成了交割,值得鼓励!(我是在吹不下去了。。。)


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


首先是o1的更新:


本次发布会发布了o1的API,现在已经可以在API平台里调用,目前仅向 Tier 5 级别开发者提供,但将在几周内推广给其他用户。


o1的API提供如下能力:


  • 函数调用(Function Calling): 允许 o1 与外部工具和 API 交互。内部评估中,性能比 GPT-4o 显著提高。与结构化输出配合使用效果良好。
  • 结构化输出(Structured Outputs): 使模型能够以指定的 JSON 格式生成响应。确保 100% 遵守模式,有助于构建丰富的应用程序和提取结构化数据。性能也比 GPT-4o 显著提高。即使在使用时也能保持推理能力。
  • 开发者消息(Developer Messages): 一种新型的系统消息,使开发者能够更直接地控制模型的行为。是指令层级工作的一部分。
  • 视觉输入(Vision Inputs): 允许模型处理和分析图像,为制造业、科学等领域的应用开辟了可能性。通过表单错误检测示例进行了演示。
  • 可调COT参数(Reasoning Effort Parameter): 允许开发者控制模型花费在“思考”上的计算时间,针对不同类型的问题优化成本和延迟。


同时也发布了o1-2024-12-17,他是o1的最新版本(Post-Train),它旨在处理复杂的多步骤任务,并提高了准确性。最新版o1也已经更新到ChatGPT里面,现在Plus和Pro用户都已经可以使用!


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


o1 使用的“思考”token比预览版减少了 60%,从而加快了速度并降低了使用成本。在各种评估(函数调用、结构化输出、编码、推理)中,都比预览版和 GPT-4o 表现出显著的改进。 


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


虽然大家都想要o1 Pro,但 o1 Pro 尚未提供API,正在开发中。(谁用得起啊,不得贵死。。。) 


然后是实时语音的 API 更新:


今天发布了两个新模型GPT-4o-realtime-preview-2024-12-17GPT-4o-mini-realtime-preview-2024-12-17 


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


新模型改进了的语音质量、提供了更可靠的输入(尤其是口述数字)和大幅降低的成本。


GPT-4o 音频 token 价格降低了 60%,Whisper Mini 音频 token 价格降低了 10 倍。 


模型细节


先来看看GPT-4o-realtime-preview-2024-12-17


他有128k token的上下文窗口,最大 4,096 个 输出token、知识截止时间为 2023 年 10 月


价格:


文本:2.50 美元 / 100 万个输入 token,10.00 美元 / 100 万个输出 token

音频:40.00 美元 / 100 万个输入 token,80.00 美元 / 100 万个输出 token


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


然后是GPT-4o-mini-realtime-preview-2024-12-17


他也有128k token的上下文窗口和最大 4,096 个 输出token,知识截止时间也为 2023 年 10 月


价格: 文本:0.15 美元 / 100 万个输入 token,0.60 美元 / 100 万个输出 token;音频:10.00 美元 / 100 万个输入 token,20.00 美元 / 100 万个输出 token


并且还发布了


  • WebRTC: 这次更新增加了 WebRTC 支持,简化了低延迟、实时语音应用程序的开发。WebRTC 自动处理互联网的可变性、回声消除和比特率变化。这大大减少了所需的代码(从使用 WebSockets 的约 200-250 行减少到使用 WebRTC 的约 12 行)。


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


  • 嵌入式集成(Microcontroller Integration): 使用一个小鹿玩具进行演示,展示将实时 API 嵌入到可穿戴设备、摄像头和其他硬件中的能力。

AI玩具创业者们狂喜


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


  • 其他改进: 改进了 Python SDK 和 API 更改,以简化函数调用和护栏。


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


最后,展示了API的微调功能:在API平台里引入了偏好微调能力(PFT),你仅需12行代码,就可以基于你的数据微调一个API。


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


此方法使用直接偏好优化 (DPO) ,与SFT相比PFT对于语气、风格和创造力很重要的主观任务尤其有效。


非常适合改进诸如响应格式、风格、帮助性、创造力和内容审核(例如,与特定品牌基调保持一致)等方面。


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!


偏好微调将于今日上线gpt-4o-2024-08-06,并将很快上线gpt-4o-mini-2024-07-18


它将以与监督微调相同的价格提供,并将于明年初支持最新模型o1等。


最后


今天发布的东西其实都是实用的,开发者需要的能力。但最后结束的这个冷笑话有点搞


“你们知道圣诞老人有一个坏孩子名单,上面都是用了o1的API的孩子。为什么结构化输出会在坏孩子名单上?因为圣诞老人听说它是“模式化的”。”


圣诞老人因为听说结构化输出是“模式化的”(a schema),就误以为它是“搞阴谋的”(a schemer),因此把它放到了坏孩子名单上。


Fine,是我理解不了的老外梗,我们明天见!



文章来自微信公众号 “  01Founder “,作者 ” 一直在路上的Max “


OpenAI马拉松发布会Day9:不只有实时语音API,还发布了三个新模型+o1满血版API,同时大降价!









关键词: openai , chatGPT , GPT , AI , WebRTC
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales