每一个不可预知的夜晚,都可能会传出OpenAI被超越的新闻。
这不在6月21日晚又被超越了,Anthropic 推出了目前最聪明、最快和最具个性化的模型——Claude 3.5 Sonnet 。 公司对外宣传该模型可以在各种任务中媲美甚至超越OpenAI的 GPT-4o。
宣称不同任务场景能超越Chat-GPT4的不止一家,但敢说各种场景超越的还很少见。但这也不能说大家实力都很雄厚,其实与OpenAI 总是画饼,作为创业公司实力不够强劲也有关系。
目前看,OpenAI 的大饼还有Sora、SearchGPT、ChatGPT4o的语音能力等,都是发了Demo却没有正式上线。布局的业务太多,每件事情都是单挑Google、Meta等巨头,难度可想而知。
大家都不否认OpenAI的实力,但这一年中 ,忙于宫斗的OpenAI,显然让很多产品的面市时间大幅延后。但抛开客观因素,OpenAI一直也有先发布Demo视频吊足大家胃口,实际产品后续再说的吹牛习惯。
只是众多竞争对手不断发布可实用的产品,OpenAI 越来越面临已经被超越的现状。
最新发布的大模型产品Claude 3.5 Sonnet(中杯),目前显示在编程评估、视觉能力、处理速度和成本效率等方面相比前代产品有显著改进。
测评榜单显示,除数学方面, Claude3.5都比 GPT-4o 高或者逼近。
跟上一版本中最强的Claude 3 Opus相比,不仅速度提升了200%,成本还直接降低了80%,性价比可谓十分高。
目前看,除了发布会上秒杀苹果Siri的人机对话能力、GPT-4o的语音功能还没有上线,Claude 3.5的视觉理解和文本能力、编程能力等多方面已经超越GPT-4o。
更让人吃惊的是,Anthropic的旗舰模型Claude 3 Opus才刚刚发布了3个月。很快还有Haiku和Opus(大杯和超大杯)发布,这迭代速度比OpenAI的ChatGPT不知快了多少。
在文生视频领域,大家是否还记得Sora横空出世给大家带来的震撼。但那已经是2月份的事情,此后Sora音信全无,此后竞争对手如雨后春笋般出现。先是Pika等AI视频选手出现,然后国内出现很多后起之秀,最大的竞争对手是快手的可灵,发布即可公测。现在不少网友已经拿到了内测资格,表现还不错。
官方宣称,可灵采用了3D时空联合注意力机制,能够生成符合物理规律的大幅度运动视频,并模拟真实世界特性。可灵大模型生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比,这些特性是目前众多用SDXL技术的伪AI视频玩家,可望不可及的高度。
很快,Runway公司最近推出了其文生视频的最新版本—Gen-3 Alpha。Gen-3 Alpha在细节丰富度、画面连贯性、保真度、一致性和动态表现方面都有显著提升,现在大家猜测,Sora的可控性能达到Gen-3 Alpha的水平就算不错。
在多模态领域,OpenAI凭借ChatGPT 4o也并没有完全占据领先优势。
发布会上看到4o的酷炫表演,如在232毫秒的时间内做出反应; 可随时打断,开启新话题; 感受用户的呼吸节奏; 解释方程式、图表的推理过程; 识别图片中人物的情绪等,是不是提前录制的好的发布视频都不得而知。
此前的Google发布会,虽说Gemini被抢先发布的ChatGPT 4o抢了风头,但其实际上Gemini Nano多模式功能还比较落地。借助多模态AI项目Project Astra,Google希望手机端用户也能通过文本、图像、声音和口语,和AI互动。比如拍一张苹果的图片,问下AI这是什么,能做什么。
过去一年中,OpenAI最实在的更新,可能是直接全量上线的DAll.E,文生绘图领域早就有Midjourney、Stable diffusion等重磅玩家,所以DAll.E直接悄悄上线。
发布近一年的DAll.E模型,在一众AI绘画产品中语意理解无出其右,但是画面精细度、美观度、接近真人摄影等近一年都没有改善,最大的更新是可编辑部分画面。
DAll.E模型也并非没有贡献,和Sora这款期货产品相同,最大的贡献可能是让市场认知到,Di-T架构是文生图片/视觉是最先进理念。图形扩散模型diffusion和语言大模型LLM构成的Di-T架构代表着未来发展方向。
当下AI市场都在向Di-T模式的多模态进发,争先推出产品。
比如,国内的腾讯混元大模型正在基于ST-DiT升级架构,混元文生图由传统的U-Net升级为DiT架构,参数量提升十几倍;混元文生视频也是国内较早使用DiT架构的玩家,视频生成时长达到16s。
Sora是发布之际就提到自己能生成60S的视频,并能模拟真实的物理世界。显然远强于市面上的竞争对手,但Sora自己拿着生成好的案例宣传,一直不给公测,这让很多人怀疑山姆奥特曼在吹牛。
纵观来看,OpenAI的发布会,很多并没有按照自己的研发节奏发布,而是刻意为了狙击竞争对手。
最明显的案例就是ChatGPT4o的发布,这款产品比Sora略好,是个半期货产品。如何理解半期货,就是ChatGPT4o宣称的比ChatGPT4反应快、各项评测任务表现更好等能力都有,但是语音能力说过两个星期推送,一直没有更新。
当时应该是OpenAI洞悉了Google I/O发布会最大的亮点,应该是大模型Gemini的语音交互能力,所以提前一天开发布会,发布了能力相同但演示效果更好的产品,狙击Google的发布会热度。
为何一家初创公司如此关注竞争,而并非努力迭代自己的产品呢?
实际上,主要原因是由于OpenAI是一家十分依赖融资的公司。2023上半年,OpenAI以103亿美元完成B+轮融资,成为AI赛道获最大融资额的企业,目前OpenAI的融资总额达到了140亿美元,未来还要完成1000亿美元的融资。
这融资体量说是吞金兽也差不多,相比融资能力,OpenAI造血能力就差得多。
据外媒The Information报道,OpenAI首席执行官山姆·奥特曼告诉员工,在过去六个月左右的时间里,OpenAI的年化收入增长了一倍多,达到34亿美元。这一数字在2023年底为16亿美元。所以每年赚的不多,但投入巨大是OpenAI的基本面。
山姆奥特曼自然也知道实情,这就造成OpenAI必须占据市场焦点。不仅需要让市场的玩家都显得落后,还希望市场认为他未来不可限量,这样投资资源就都会向他聚拢。
Sora就是为了这种取得预期,早早发布会后,市场对其膜拜程度又再攀高峰。但在内测使用中,发现这款产品十分不可控,而且训练成本高昂。在好莱坞编剧的定制使用中,影片中的气球人需要几百次抽卡,才能找到能用的画面,而且使用的算力成本高昂。
现在这个时候,群雄四起,显然OpenAI需要拿出 GPT 5 才能镇住场子。这不Claude 3.5 Sonnet 发布后,就有市场消息传出GPT 5 大概3个月后发布。
这是不是OpenAI为了狙击Anthropic ,又故意放出的烟雾弹呢?
“前段时间和负责人聊天,我都感觉是奥特曼在吹牛逼, GPT 5 肯定没这么惊艳,或者 GPT 5 惊不惊艳已经不重要了。因为GPT 4 已经满足了大部分商业需求,升级对于商业模式本身已经没那么大的变化了。”
此前,猎豹移动董事长傅盛曾在演讲中如此评价奥特曼的风格,认为他非常善于片Pr,推特没事发几条,让OpenAI一直处于有利的舆论位置。
当然,说奥特曼只会动嘴皮子也不客观。对于山姆奥特曼来说,这一年最大的挑战,莫过于围绕商业化和AI安全可控的问题,产生的团队宫斗。
2023年11月,这场内斗达到了高潮,Altman被解雇并短暂离开公司。然而,经过一段时间的调查和调解,在微软的支持下,OpenAI宣布对Altman和总裁格雷戈里·布罗克曼的信任,并决定让Altman重返董事会,但团队的裂痕已经形成。
现在,形成Altman坐镇指挥,美女技术官Mira Murati出镜做发布会,而首席科学家Ilya Sutskever离职创业的情况。
Ilya Sutskever在2024年6月19日宣布离职OpenAI后,宣布创办了一家名为“安全超级智能”(Safe Superintelligence,简称SSI)的新公司,两位联合创始人分别是前苹果AI高管、Y-Combinator的合伙人Daniel Gross和前OpenAI技术团队成员Daniel Levy。
Ilya主打的安全超级智能,在某种程度上是对OpenAI 初心的回归。OpenAI一直坚持时非营利性组织,奥特曼本人也不是绝对持股。但OpenAI目前商业化的脚步却在提速,导致内部各种声音争议不绝。
这不是OpenAI创始团队的第一次出走,刚刚发布Claude 3.5 Sonnet的公司Anthropic,也是由OpenAI(ChatGPT的开发机构)前研究副总裁达里奥·阿莫迪(Dario Amodei)和其他前OpenAI员工在2021年共同创办,获得了亚马逊和谷歌的资金支持。
SSI和Anthropic都是OpenAI的核心团队成员创办,打着超级安全的旗号出去创业,但最终安全不安全没有看出来,产品却都对着ChatGPT打,经常一更新,就出现某一方面达到或者超越ChatGPT。
超级人工智能不能一步到达
山姆奥特曼面临的忧患不止如此,埃隆马斯克也盯着OpenAI发大招,毕竟OpenAI就是马斯克取得名字,但当OpenAI不再朝着开源前进时,愤怒的马斯克自己创办了开源大模型公司Grok,并在近期获得60亿美元的融资。
团队动荡之际,OpenAI很多产品推进速度变慢,也情有可原。目前还有GPT桌面版、与苹果的合作、支持微软的Copilot等任务,相比Sora那些划时代的产品,这些重要的商业合作其实也并不简单。
当下,奥特曼急要重塑团队战斗力,将目前已经发布的期货产品推向市场,以及更早的推出GPT5,重新拉开与市场上起他玩家的距离,才能保证OpenAI继续被期许,以及最被崇拜的明日之星。
本文来自微信公众号“AI鲸选社”(ID:aijingxuanshe),作者:到底哥