奥特曼：自认比o1聪明请举手！到o2还这么想么？

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

4043点击 2024-10-02 12:01

奥特曼：认为自己比o1更聪明的请举手。

（台下一些人举手）

奥特曼：到了o2你们还会这么想么？

（汗流浃背了）

这一幕，刚刚在OpenAI开发者日最后一个环节——奥特曼炉边谈话中上演。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

对话由奥特曼和OpenAI首席产品官Kevin Weil进行，奥特曼还对未来作出如下判断：

无限上下文长度将在十年内发生
o1正在推动智能体应用，人们将要求AI在一小时内完成以前人类数月或数年的工作
然后每个人将拥有10个智能体，再然后拥有1000个
担心科幻（Sci-fi）是我们最重要的事之一

除此之外，活动上宣布了OpenAI API大量重磅更新：

实时语音API：每个APP里都可以拥有“Her”
视觉微调API：只需100张图提升GPT-4o特定任务图像理解能力
自动提示词缓存：模型见过的token统统打5折
模型蒸馏API：用前沿模型的输出微调GPT-4o mini

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

围绕这些功能的精彩现场演示，也引起众人围观。

比如GPT-4o驱动的实时语音API，配合函数调用+Twillio（云通讯服务），可以直接打电话订外卖了。

订购400个草莓裹巧克力酱甜点，参会者人人都有的吃。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

看起来演示现场是OpenAI员工在台上扮演食品店员工，真正的订购过程是在幕后完成。

没过一会，还有人晒会场外草莓快被领完了。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

最新发布的推理大模型o1也露了一手，从头编程操控无人机，现场芜湖起飞。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

这边大会办得热闹，与OpenAI相关的周边消息也不断传出：

刚刚离职的几位中，前研究VP Barret Zoph已决定要成立一家新公司。

前CTO Mira Murati还没宣布下一步要干什么，但投资人开始围追堵截她，希望她尽快成立自己的公司。

还有一位此前已离职的OpenAI联合创始人Durk Kingma，宣布加入隔壁Anthropic。

OpenAI开发者日

与去年相比，今年的OpenAI开发者日活动不再现场直播，并拆分成三部分在不同地点举办（美国、英国、新加坡）。

刚刚在旧金山举办的第一场，宣布了多项API更新。

Realtime API

实时语音API为公开测试版，所有开发者都能在自己的APP中构建与ChatGPT高级语音模式类似的体验。

价格也不贵，每分钟音频输入约0.06美元，每分钟音频输出约0.24美元。

语言学习应用Speak已使用Realtime API开发AI角色扮演练口语功能。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

此外还在Chat Completions API中增加了音频输入和输出，可以用在对时延要求不高的地方，将在未来几周内作为gpt-4o-audio-preview发布。

视觉微调

开发者现在可以用图像对GPT-4o微调，以提高视觉能力。

可以用来增强视觉搜索功能、改进自动驾驶汽车或智能城市的物体检测以及更准确的医学图像分析等应用。

如外卖和共享出行公司Grab，将车道计数的准确性提高20%，将限速标志的定位提高13%。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

在UI设计上，微调过的GPT-4o生成的网页区域也能更好匹配整个页面的风格。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

视觉微调的过程与文本微调类似，按照OpenAI指定的格式准备图像数据集，然后将数据集上传到OpenAI开发平台

只需使用100张图像就能提高GPT-4o在视觉任务中的性能，当然用的更多提升也能更大。

GPT-4o的微调费用为$25/100万tokens，微调后推理费用为每 100 万个输入tokens 3.75美元，每100万个输出令牌15美元。

不过在2024年10月31日之前，每天免费为视觉微调提供100万个训练token。

羊毛薅起来～

提示词缓存

许多开发者在构建人工智能应用程序时，会在多个API调用中重复使用相同的上下文，例如在编辑代码库或与聊天机器人进行长时间、多轮对话时。

提示词缓存功能可以在降低成本的同时降低推理延迟。‍

OpenAI推出这个功能是比较晚的，此前谷歌Gemini、Claude，以及国内DeepSeek，Kimi等都已上线。

不过OpenAI搞出来的特色在于：一切都是自动的。

从今天起，提示词缓存已适配最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini，以及这些模型的微调版本。

只要是AI见过的token，自动统统打五折。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

缓存将在闲置5-10分钟后清除，最多保留1小时。

模型蒸馏

让开发者可以用o1-preive和GPT-4o等前沿模型的输出，对GPT-4o mini等小模型微调。

此前，模型蒸馏是一个多步骤、易出错的过程，需要开发人员在互不关联的工具中手动协调多个操作，从生成数据集到微调模型和评估性能。

由于蒸馏本质上是迭代的，需要反复运行每个步骤，大大增加了工作量和复杂性。

这次OpenAI推出了新的集成工作流程，可自动获得前沿模型生成的输入-输出对、运行自定义评估、以及完成微调。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

同样在10月31日之前，在GPT-4o mini上每天提供200万个免费培训token，在GPT-4o上每天提供100万个免费训练token。

离职高管被资本热捧，联创加入Claude团队

OpenAI持续发布新模型、新功能的压力，让OpenAI内部研究和安全团队疲于奔命，难以跟上步伐。

此前已有消息证实GPT-4o发布前，团队只有9天时间做安全评估，每天工作20多个小时。

财富杂志最新消息表示，o1发布前也遇到了同样的情况，并且在公司高层之间引发了摩擦。

许多向前CTO Mira Murati汇报工作的团队都认为o1还没有做好发布的准备，还没有真正形成产品，不过他们的反对意见被驳回了。

除了奥特曼之外唯一还在的联创Woijceich Zarembra发声，承认了在o1开发阶段他和后训练团队负责人Barret Zoph发生激烈冲突，但没有透露详细细节。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

现在后训练团队仍在继续完善o1，但Barret Zoph已经辞职了。

Barret Zoph目前表示将成立一家新公司，但目前尚不清楚他具体会做什么，也不清楚他是否会和Murati合作。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

再看Murati这边，她本人还没有宣布下一步任何计划，但投资人争相与她会面，希望她尽快创办自己的公司。

据Business Insider消息，许多投资人正在试图接近她，即使以前没有联系过的也会给她发冷邮件。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

作为去年11月奥特曼被短暂赶下台的余波，OpenAI高层持续动荡，已经流失不少研究和管理人才。

与此同时，OpenAI 一直在疯狂招聘，规模相比去年扩大了一倍多，员工人数从不到800人增加到1800人。

有老员工开始抱怨：新员工的涌入改变了OpenAI的氛围和文化。

关于研究的对话少了，关于产品或向社会部署的对话多了。

离职的OpenAI研究人才中，有相当一部分去了隔壁Anthropic。

联合创始人John Schulman、超级对齐负责人Jan Leike跳槽加入之后，Anthropic又吸引来一位早年已经离职的OpenAI联创Durk Kingma。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

Durk Kingma博士毕业于阿姆斯特丹大学，师从机器学习大牛Max Welling。

两人合作开发了变分自编码器VAE，相关论文于今年获得ICLR首届时间检验奖。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

Durk Kingma于2018年离开OpenAI，做了一段时间天使投资人，后加入谷歌大脑，再后来被合并进了Google DeepMind。

这次他加入Anthropic将主要在荷兰远程办公，没有透露他将具体加入哪个团队或负责哪部分工作。

总之OpenAI变得不像以前的自己，但隔壁Anthropic越来越像以前的OpenAI了。

还有人提出，如果去年11月奥特曼真的下台了，OpenAI现在会不会更好呢？

健康的公司，有优秀的CEO，不会用报酬威胁员工签封口协议，也不会有高管辞职，更不会有那么多丑闻。

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

文章来源于“量子位”，作者“梦晨”

奥特曼：自认比o1聪明请举手！到o2还这么想么？｜OpenAI开发者日

关键词: AI , o1 , o2 , openai , chatGPT

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales