“星际之门”计划连遭变故:扩建谈崩、数据中心宕机、OpenAI 转向“租而不建”

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
“星际之门”计划连遭变故:扩建谈崩、数据中心宕机、OpenAI 转向“租而不建”
5169点击    2026-03-18 16:17

2025 年 1 月,特朗普在白宫亲自站台,宣布了一个号称“史上最大 AI 基础设施项目”的宏伟计划。OpenAI 联合软银、甲骨文和阿布扎比主权基金 MGX,组建了一家名为 Stargate LLC 的合资公司,承诺在四年内向美国 AI 基础设施投入 5,000 亿美元。Sam Altman 负责运营,孙正义出任董事长,Larry Ellison 许下愿景。那一天他们意气风发,仿佛 AI 产业的新纪元就此开启。


14 个月后,Stargate 的故事已经变得非常复杂。旗舰数据中心扩建谈判崩了,得州园区因为寒潮停摆好几天,负责实体建设的关键高管已经走人,而 OpenAI 自己也不再执着于盖房子,开始大规模租用别人的云服务器。


2026 年 3 月 16 日,据媒体披露 OpenAI 已任命新的基础设施领导团队,把整个算力部门拆成了三个小组,由前英特尔高管 Sachin Katti 统管。Stargate 没死,但它已经不是当初那个 Stargate 了。


阿比林(Abilene)是故事的起点。这座得州西部的小城拿到了 Stargate 第一个落地项目:一座由 Crusoe Energy Systems 开发的超大规模 AI 数据中心园区,占地约 1,000 英亩,规划八栋建筑,总容量 1.2 吉瓦(GW,1 吉瓦大致相当于一座核反应堆的发电能力)。


“星际之门”计划连遭变故:扩建谈崩、数据中心宕机、OpenAI 转向“租而不建”

图丨Abilene 项目(来源:Crusoe)


园区前两栋建筑在 2025 年 9 月启用,跑在甲骨文云基础设施(Oracle Cloud Infrastructure,OCI)上,为 OpenAI 的训练和推理任务提供算力。为了把剩下六栋建筑建起来,Crusoe 拿到了 116 亿美元的债务和股权融资,其中摩根大通两笔贷款加起来就有 96 亿美元,可能是有史以来融资规模最大的单个数据中心项目。


第二期工程 2025 年 3 月开工,预计 2026 年年中完成。与此同时,甲骨文、Crusoe 和 OpenAI 开始谈一件更大的事:把园区从 1.2 吉瓦扩到大约 2.0 吉瓦。额外的 800 兆瓦容量如果落地,阿比林将成为全球最大的 AI 数据中心之一。


谈判拖了大半年,最终没谈成。


Bloomberg 在 3 月 7 日的报道中提到了三个原因。融资条款谈不拢,各方对资本分担和经济结构的预期差距太大。OpenAI 的需求预测一直在变,2025 年中期的方案到了 2026 年初已经面目全非,合作方很难据此做出投资决策。第三个原因更具体:阿比林园区出了运营事故。


2026 年初的一场冬季寒潮给阿比林园区造成了严重冲击。园区采用的是闭环液冷系统,通过直接接触芯片的管路带走热量,再由空气冷却器散热,不消耗水资源。设计思路很好,问题是极端低温来了之后,散热回路里的管线冻住了。多栋建筑因此停机数日,需要人工解冻后重启整个系统。


这件事不只是“停了几天电”这么简单。当下 AI 训练集群用的 Nvidia Blackwell GPU,单机架功耗可达 120 到 140 千瓦,单颗 GPU 功耗 700 到 1,200 瓦。热密度大到只能靠液冷解决,而液冷系统的核心部件,冷却分配单元(CDU),恰恰构成了单点故障。传统数据中心几十年来一直在消除单点故障,液冷的大规模引入又把这个老问题带了回来。


据报道甲骨文和 Crusoe 的关系因设施的不稳定性变得紧张。两家公司后来都发了声明,说合作依然稳固、项目进展顺利。声明归声明,扩建没谈下去是既成事实。


扩建取消后出现了一个有点魔幻的连锁反应。Nvidia 给 Crusoe 打了 1.5 亿美元预付款,然后开始帮 Crusoe 把空出来的扩建容量推销给 Meta。Nvidia 的目的不难理解:确保扩建区域装的是自家 GPU,不让 AMD 的芯片趁虚而入。芯片厂商在数据中心交易里同时扮演金主、中间人和看门人,放在几年前很难想象,2026 年倒已经不算什么新鲜事。Meta 目前正在评估阿比林的扩建空间,谈判还在进行中。


阿比林的扩建失利只是冰山一角。更大的变化在于,OpenAI 已经放弃了自己盖数据中心的想法。


这个转向有一条清晰的逻辑链。白宫发布会之后,OpenAI 的人在全美各地跑,找能撑起 800 兆瓦到 1.2 吉瓦容量的选址,优先挑 2026、2027 年有大量电力接入的地方。真正的困难不在选址,在于 Stargate 合资公司本身出了问题。白宫发布会之后的几周里,三方迅速陷入僵局。OpenAI、甲骨文和软银对各自的角色、项目的控制权和合作结构争执不下,合资公司既没有招人也没有实际推进任何数据中心的建设。


据报道,Stargate 在宣布后的初期处于群龙无首的状态,缺乏领导和协调。OpenAI 急需算力,一度打算甩开合作伙伴自己干,直接租赁甚至拥有大型数据中心园区,减少对其他云服务商的依赖。OpenAI 的高管在 2025 年 9 月到 10 月间多次飞赴东京跟孙正义谈判,进展有限。


到头来,这条自建路线也走不通:贷款机构不愿意为一家商业模式尚未验证、每年烧掉数十亿美元现金的公司担保如此大规模的建设项目。面对这个财务现实,OpenAI 最终回头找甲骨文和软银推进项目,但合作方式已经变了。


三方合资的框架基本名存实亡,取而代之的是 OpenAI 分别与甲骨文、软银签订的双边协议。OpenAI 不再追求自建和持有设施,而是通过租赁结构获取算力,把建设和融资的资本负担留给合作伙伴。


转向的幅度相当大。OpenAI 跟 AWS 签了七年 380 亿美元的合约,跟甲骨文谈了五年超过 3,000 亿美元的基础设施租赁协议(Stargate 框架下最大的单一合同),与微软维持着约 2,500 亿美元规模的长期合作(尽管 Azure 独家供应商地位已在 2025 年终结),还跟 Google Cloud 建立了新关系。


芯片层面也在分散布局:与 AMD 签了多年期协议,可使用高达 6 吉瓦容量的 AMD Instinct GPU,对价可能包括 AMD 最多 10% 的普通股;与 Nvidia 达成意向书,部署至少 10 吉瓦的 Nvidia 系统,Nvidia 承诺逐步投入最多 1,000 亿美元;同时还在用初创公司 Cerebras 的芯片。自研芯片方面,OpenAI 与博通(Broadcom)合作开发代号“Titan”的推理专用芯片,目标 2026 年下半年量产。


投资者材料显示,OpenAI 预计到 2030 年的算力总支出约 6,650 亿美元。此前媒体报道过更早的数字是 1.4 万亿美元,后来下调了。其中光是“备用”云服务器的租赁,2026 到 2030 年间就要花约 1,000 亿美元,加上常规云服务支出大约 3,500 亿美元,每年的云服务账单在 850 亿美元上下。而 2025 年 OpenAI 的营收大约 130 亿美元。公司预计 2030 年营收增长到 2000 亿美元左右,但达到那一天之前累计亏损可能有 1,150 亿美元。


OpenAI 的赌注是跟时间赛跑。它赌的是 AI 使用量的增长速度能跑赢它烧钱的速度,在资本市场的耐心用完之前把账算平。


3 月中旬的基础设施团队重组就发生在这样的背景下。据报道,Katti 把原来由总裁 Greg Brockman 直管、按项目划分的算力团队改成了按职能划分的三个组。


“星际之门”计划连遭变故:扩建谈崩、数据中心宕机、OpenAI 转向“租而不建”

图丨 Sachin Katti(来源:Standford University)


第一个组负责数据中心的技术工程设计,评估不同芯片组合对设施需求的影响,决定集群规模和选址。由前 Meta/Google 工程师 Chris Malone 和前微软工程负责人 Adrian Caulfield 联合领导。


第二个组负责商业合作关系管理,覆盖与微软、甲骨文、亚马逊等云服务商以及芯片厂商的合约。由老员工 Peter Hoeschele 领导,内部代号“Epic”(Ecosystems and Partnerships for Industrial Compute)。


第三个组负责数据中心实体运营,追踪合作伙伴为 OpenAI 建设的设施进度,确保服务器尽快上线。负责人是前 Google 数据中心总监 Nick Saddock。


Saddock 接手的位置,是几周前刚离职的 Keith Heyde 留下的。Heyde 2025 年初从 Meta 加入 OpenAI,负责 Stargate 的实体建设。他在接受 DCD 采访时形容过这份工作的日常:“太多东西每天都在变……我们依赖哪些合作伙伴、跟谁绑得更紧,一直在调整。”现在 Saddock 面对的问题跟 Heyde 时期已经不太一样了。重心从“我们自己要建什么”变成了“别人替我们建的东西什么时候能用”。


Katti 在声明中说,算力团队已经构建了“跨云、跨芯片、跨基础设施的强大生态系统”。自研芯片团队不归他管,前 Google 芯片高管 Richard Ho 带着大约 40 人的工程师团队直接向 Brockman 汇报,与博通合作的项目独立运行。两条线并行:日常算力获取归 Katti,长线芯片研发归 Ho。


“Stargate”这个词的含义也随之漂移了。当初它指的是 OpenAI、甲骨文和软银合建数据中心的具体项目。现在它更像是 OpenAI 整体算力战略的品牌名。甲骨文的 OCI、亚马逊的 AWS、微软的 Azure、CoreWeave 的 GPU 云,只要为 OpenAI 跑任务的吉瓦级算力,都可以挂上 Stargate 的标签。


OpenAI 官网上列出的 Stargate 站点已经分布在得州、新墨西哥、威斯康星、俄亥俄和密歇根,总规划容量超过 8 吉瓦,投资承诺超过 4,500 亿美元。数字看着还是大得吓人,实现路径跟白宫发布会上描绘的已经不是一回事。


回到一个基本问题:OpenAI 不自己建而是选择租,这个策略说得通吗?


从短期看,说得通。一家年营收百亿级别的公司,同时承担万亿级别的基建投资,无论怎么算账都不现实。把建设和融资的资本负担甩给甲骨文、软银、Crusoe、CoreWeave 这些合作伙伴,自己控制设计和芯片选型,保留灵活性,是眼下最务实的做法。


麻烦在远一点的地方。提供算力的那些云服务商,微软、亚马逊、Google,自己都有 AI 产品,跟 OpenAI 既是供应商又是对手。Nvidia 通过投资、预付款和撮合交易,在整个生态里积累了非常大的影响力,OpenAI 对此几乎没有制衡手段。


需求预测仍然高度不确定。ChatGPT 的周活跃用户在 2026 年初达到了 9 亿,推理模型之类的产品每次查询消耗的算力远超早期模型,训练和推理之间怎么分配资源也一直在变。阿比林扩建谈判破裂的一个直接原因,就是 OpenAI 的需求预测变得太频繁,合作方无法据此做长期投资决策。


Katti 在 Bloomberg 报道阿比林扩建取消之后,在社交媒体上回应说,阿比林园区“是美国最大的 AI 数据中心园区之一”,他们确实考虑过进一步扩建,“但最终选择把额外容量放在其他地点”。不过话说回来,把算力分散到多个地点而不是押在单一园区上,确实比一年前的策略更能分散风险。只是 5,000 亿美元和 10 吉瓦的承诺还在台面上,Stargate 的每一步实际推进,都比白宫发布会那天听起来要难得多。


按照 OpenAI 自己的财务预测,公司预计 2030 年实现盈利,届时年营收约 2,000 亿美元,年度云服务账单约 850 亿美元。在那之前,累计亏损可能达到 1,150 亿美元。Katti 的三个新团队眼下最紧迫的任务,大概不是画下一张吉瓦级的规划图,而是确保已经签下来的那些服务器合同能按时交付、跑起来不宕机。


参考资料:

1.https://www.theinformation.com/articles/inside-openais-scramble-get-computing-power-stargate-stalled?rc=p2bxcy

2.https://www.theinformation.com/articles/openai-names-new-infrastructure-leaders-following-stargate-strategy-shift?rc=p2bxcy

3.https://www.bloomberg.com/news/articles/2026-03-06/oracle-and-openai-end-plans-to-expand-flagship-data-center


文章来自于“DeepTech深科技”,作者 “加洋”。

AITNT-国内领先的一站式人工智能新闻资讯网站