目前,GPU芯片紧缺成为AI行业面临的问题,另一方面,因为传统云服务计算架构与AI计算负载的不匹配,大量GPU计算资源没有被充分利用。
为了解决这些问题,Foundry应运而生,它希望最大化AI计算能力与AI计算效用的匹配。近期,它获得了Lightspeed Venture Partners、Sequoia Capital领投,Conviction VC、 M12、NEA、Redpoint参投的8000万美元种子+A轮合并融资,投后估值达3.5亿美元。
它的天使投资人和顾问还包括:Jeff Dean(谷歌首席科学家)、Eric Schmidt(谷歌前CEO)、George Roberts(KKR联合创始人)、Paul Milgrom(诺贝尔奖得主)、Matei Zaharia(加州伯克利教授和Databricks联合创始人)、Jure Leskovec(斯坦福大学教授和图神经网络先驱)、Alexandr Wang(Scale AI的创始人)、Liam Fedus(ChatGPT创造者)Mario Gabriele(The Generalist)、David Vélez(Nubank CEO)等。
Foundry表示,其收入已超过八位数,客户包括LG、KKR、斯坦福大学、麻省理工学院、卡内基梅隆大学,以及Arc Institute、Poolside和Captions等。
Foundry成立于2022年,它的创始人Jared Quincy Davis在创立Foundry之前,是DeepMind的研究科学家,管理着核心深度学习的50人团队,这个团队专注于ML理论和分布式系统挑战,例如把深度学习扩展并应用于如数据中心设计和打包、工业HVAC、机器人导航和控制等复杂应用问题。他还获得了ML/STEM领域获得顶级奖项:Open Phil AI奖学金、赫兹奖,是可扩展深度学习创新方法的先锋。
在攻读斯坦福大学计算机科学博士之前,他曾在波士顿咨询、KKR等咨询或金融机构就职;他还担任过Khosla Ventures和Sequoia Capital等风投基金的顾问与观察员。Jared既具有学术和技术背景,也懂得商业和风险投资,是典型的Alpha Founder。
Foundry的团队具有跨学科背景,其专业知识涵盖AI/ML、分布式系统设计、硬件、传统软件、产品、财务和业务。很多成员来自DeepMind、Microsoft,OpenAI和Meta的基础设施团队以及斯坦福大学未来数据系统小组。
在斯坦福大学攻读机器学习博士学位期间,Jared Quincy Davis遇到了一个问题:获取他需要训练模型的GPU计算时间非常困难。他和其他需要硬件访问的学生必须在Google表格上预订一个时间段,才能独占地使用一块硬件,然后在下一个学生的时间窗口到来之前完成使用。
当时,Jared与多位学者合作,每位学者都有自己的GPU集群,他认为,如果他能同时使用这些各不相同且分散的集群,并有效地协调计算资源和分配工作负载,就能更快地训练模型。但当时没有可行的技术方法能够做到这一点。
Jared在BCG和KKR工作时,工作内容包括数据中心项目,因此他不仅懂得AI模型训练,还理解传统云环境下分布式系统与AI所需之间的差异,以及AI计算范式在硬件方面的变化。
2022年9月,Jared创立了Foundry,获得红杉资本的种子轮融资,2个月后,OpenAI推出了ChatGPT,AI计算需求爆炸式增长。Foundry在恰当的时间进入了市场。
当前的公有云基础设施的一个主要挑战是,无论是软件还是硬件都是为web时代的应用和服务构建的,它没有很好的为AI/ML的负载进行重构和优化,它仍然是以CPU为核心组建,配套的软件堆栈也没有考虑到SLO(服务等级目标)、工作负载结构、基础设施异质性、集群多租户性、容错性和弹性,也没有很好的满足AI工作的需求(节点到节点、数据和用户本地性)。
另外,由于持续的芯片短缺,企业被迫从超大规模云提供商那里预留GPU容量,有时长达数年之久,有时花费高达数亿美元。对于技术先进的AI公司来说,计算能力的成本现在是他们最大的运营开销,超过了人力资源。
Foundry意识到AI计算生态系统的瓶颈不在于供应不足,而在于利用不足。Foundry的目标是建造一种新型的公共云,通过一个协调平台,使访问AI计算资源像开灯一样简单。
Foundry的平台具有以下特点:
高适应性和高性价比,他们既有NVIDIA H100这样的的顶级GPU,也有其他更便宜的算力芯片,能够根据用户的特定任务和SLO提供最佳性价比。他们的平台为训练和推理工作负载实例化了最佳配置,以便实践者能够迅速无缝地实现结果。
而且Foundry的编排功能可以将客户的工作负载映射到提供每单位计算支出最大ROI的设备上。他们既能满足需要速度的工作负载,也能满足具有灵活SLA的工作负载,这些工作负载可以在非高峰时段运行。
Foundry表示,其平台在为客户提供相似计算能力时“成本能够比传统方法低一个数量级”。
简易性,在传统的云计算中,除了公有云平台外,还有不少公司做复杂的集群管理和工作负载编排工具,这一方面让计算更可管理,一方面又增加了复杂性。Foundry的平台使用户可以简单的使用这些能力,使用户不用组建庞大的基础设施团队来专门管理这些工具和负载。
弹性,Foundry的平台能够适应客户的动态计算需求,无论是遇到预料外的使用高峰需要增加GPU容量,还是需要缩减,Foundry都能灵活满足,而且按实际用量收费,无需提前囤积GPU计算时间。
安全和可靠性,Foundry按照最高的安全和合规标准构建,并且已获得SOC 2类型II认证,保护客户敏感数据,最大化的保证客户的正常运行时间,而且减少数据包丢失、缓冲区溢出和拥塞控制等问题。
此外,AI驱动的边缘设备可以快速寻找Foundry高度分布式基础设施中最近的GPU,与现有的中心化提供商相比,显著减少了延迟。
Foundry并不是唯一一家想要变革公共云服务,打造AI时代基础设施的公司,此前我们介绍过的together.ai(请参考:together.ai让AI模型训练快9倍,获NVIDIA参投1.025亿美元A轮融资|AlphaFounders),以及获得数十亿美元债务融资的CoreWeave都是这个领域的领先玩家。
这些公司希望在规模巨大的云计算业务中占据重要份额,利用AI时代的东风,挑战云计算的三巨头:AWS,Azure,GCP。不过这三大巨头本身也在AI领域多方投资和布局。
自ChatGPT发布一年多来,我们已经看到AI将会变革所有行业的趋势,而AI应用也将蓬勃,而它的发展带来了对AI专有计算的巨量需求。
有专家认为,尽管云计算经过了多年发展,上云还在早期阶段,美国要到4年后才达到20%的渗透率,而中国目前只有3%,而未来80-90%的基础设施都应该在云上。AI的兴起,又让云原生基础设施面临计算,储存、软件等方面的重构,创业机会巨大。
无论是云计算的三巨头,还是AI基础设施的创业公司,他们都为客户解决需要花费巨大人力成本和财务成本自建大规模基础设施的问题。
在这个问题被解决后,AI时代的创业者只有一个任务,就是7*24*365的专注在自己要解决的问题上,把自己的优势充分发挥,机会属于创新型的企业。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:阿尔法公社