奥特曼:认为自己比o1更聪明的请举手。
(台下一些人举手)
奥特曼:到了o2你们还会这么想么?
(汗流浃背了)
这一幕,刚刚在OpenAI开发者日最后一个环节——奥特曼炉边谈话中上演。
对话由奥特曼和OpenAI首席产品官Kevin Weil进行,奥特曼还对未来作出如下判断:
除此之外,活动上宣布了OpenAI API大量重磅更新:
围绕这些功能的精彩现场演示,也引起众人围观。
比如GPT-4o驱动的实时语音API, 配合函数调用+Twillio(云通讯服务),可以直接打电话订外卖了。
订购400个草莓裹巧克力酱甜点,参会者人人都有的吃。
看起来演示现场是OpenAI员工在台上扮演食品店员工,真正的订购过程是在幕后完成。
没过一会,还有人晒会场外草莓快被领完了。
最新发布的推理大模型o1也露了一手,从头编程操控无人机,现场芜湖起飞。
这边大会办得热闹,与OpenAI相关的周边消息也不断传出:
刚刚离职的几位中,前研究VP Barret Zoph已决定要成立一家新公司。
前CTO Mira Murati还没宣布下一步要干什么,但投资人开始围追堵截她,希望她尽快成立自己的公司。
还有一位此前已离职的OpenAI联合创始人Durk Kingma,宣布加入隔壁Anthropic。
与去年相比,今年的OpenAI开发者日活动不再现场直播,并拆分成三部分在不同地点举办(美国、英国、新加坡)。
刚刚在旧金山举办的第一场,宣布了多项API更新。
实时语音API为公开测试版,所有开发者都能在自己的APP中构建与ChatGPT高级语音模式类似的体验。
价格也不贵,每分钟音频输入约0.06美元,每分钟音频输出约0.24美元。
语言学习应用Speak已使用Realtime API开发AI角色扮演练口语功能。
此外还在Chat Completions API中增加了音频输入和输出,可以用在对时延要求不高的地方,将在未来几周内作为gpt-4o-audio-preview发布。
开发者现在可以用图像对GPT-4o微调,以提高视觉能力。
可以用来增强视觉搜索功能、改进自动驾驶汽车或智能城市的物体检测以及更准确的医学图像分析等应用。
如外卖和共享出行公司Grab,将车道计数的准确性提高20%,将限速标志的定位提高13%。
在UI设计上,微调过的GPT-4o生成的网页区域也能更好匹配整个页面的风格。
视觉微调的过程与文本微调类似,按照OpenAI指定的格式准备图像数据集,然后将数据集上传到OpenAI开发平台
只需使用100张图像就能提高GPT-4o在视觉任务中的性能,当然用的更多提升也能更大。
GPT-4o的微调费用为$25/100万tokens,微调后推理费用为每 100 万个输入tokens 3.75美元,每100万个输出令牌15美元。
不过在2024年10月31日之前,每天免费为视觉微调提供100万个训练token。
羊毛薅起来~
许多开发者在构建人工智能应用程序时,会在多个API调用中重复使用相同的上下文,例如在编辑代码库或与聊天机器人进行长时间、多轮对话时。
提示词缓存功能可以在降低成本的同时降低推理延迟。
OpenAI推出这个功能是比较晚的,此前谷歌Gemini、Claude,以及国内DeepSeek,Kimi等都已上线。
不过OpenAI搞出来的特色在于:一切都是自动的。
从今天起,提示词缓存已适配最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini,以及这些模型的微调版本。
只要是AI见过的token,自动统统打五折。
缓存将在闲置5-10分钟后清除,最多保留1小时。
让开发者可以用o1-preive和GPT-4o等前沿模型的输出,对GPT-4o mini等小模型微调。
此前,模型蒸馏是一个多步骤、易出错的过程,需要开发人员在互不关联的工具中手动协调多个操作,从生成数据集到微调模型和评估性能。
由于蒸馏本质上是迭代的,需要反复运行每个步骤,大大增加了工作量和复杂性。
这次OpenAI推出了新的集成工作流程,可自动获得前沿模型生成的输入-输出对、运行自定义评估、以及完成微调。
同样在10月31日之前,在GPT-4o mini上每天提供200万个免费培训token,在GPT-4o上每天提供100万个免费训练token。
OpenAI持续发布新模型、新功能的压力,让OpenAI内部研究和安全团队疲于奔命,难以跟上步伐。
此前已有消息证实GPT-4o发布前,团队只有9天时间做安全评估,每天工作20多个小时。
财富杂志最新消息表示,o1发布前也遇到了同样的情况,并且在公司高层之间引发了摩擦。
许多向前CTO Mira Murati汇报工作的团队都认为o1还没有做好发布的准备,还没有真正形成产品,不过他们的反对意见被驳回了。
除了奥特曼之外唯一还在的联创Woijceich Zarembra发声,承认了在o1开发阶段他和后训练团队负责人Barret Zoph发生激烈冲突,但没有透露详细细节。
现在后训练团队仍在继续完善o1,但Barret Zoph已经辞职了。
Barret Zoph目前表示将成立一家新公司,但目前尚不清楚他具体会做什么,也不清楚他是否会和Murati合作。
再看Murati这边,她本人还没有宣布下一步任何计划,但投资人争相与她会面,希望她尽快创办自己的公司。
据Business Insider消息,许多投资人正在试图接近她,即使以前没有联系过的也会给她发冷邮件。
作为去年11月奥特曼被短暂赶下台的余波,OpenAI高层持续动荡,已经流失不少研究和管理人才。
与此同时,OpenAI 一直在疯狂招聘,规模相比去年扩大了一倍多,员工人数从不到800人增加到1800人。
有老员工开始抱怨:新员工的涌入改变了OpenAI的氛围和文化。
关于研究的对话少了,关于产品或向社会部署的对话多了。
离职的OpenAI研究人才中,有相当一部分去了隔壁Anthropic。
联合创始人John Schulman、超级对齐负责人Jan Leike跳槽加入之后,Anthropic又吸引来一位早年已经离职的OpenAI联创Durk Kingma。
Durk Kingma博士毕业于阿姆斯特丹大学,师从机器学习大牛Max Welling。
两人合作开发了变分自编码器VAE,相关论文于今年获得ICLR首届时间检验奖。
Durk Kingma于2018年离开OpenAI,做了一段时间天使投资人,后加入谷歌大脑,再后来被合并进了Google DeepMind。
这次他加入Anthropic将主要在荷兰远程办公,没有透露他将具体加入哪个团队或负责哪部分工作。
总之OpenAI变得不像以前的自己,但隔壁Anthropic越来越像以前的OpenAI了。
还有人提出,如果去年11月奥特曼真的下台了,OpenAI现在会不会更好呢?
健康的公司,有优秀的CEO,不会用报酬威胁员工签封口协议,也不会有高管辞职,更不会有那么多丑闻。
文章来源于“量子位”,作者“梦晨”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales