AI咆哮后，一个赚大钱的AI+Data公司估值居然430亿美元？

21121点击 2023-09-15 14:32

悄然间，Databricks公司逆风扬帆，将估值推到430亿美元。

因其仍未上市，且行为低调，财务构成长久以来都是秘密。

Databricks中文名直译：数据砖头。

但似乎没人这么叫，太土了。

念出Databricks，发五个音节，短促干脆，给人以一种美国湾区科技的既视感，很高级，有排面。

这又是一个美元堆上的新故事。

（一）营收多少？增速多快？

清晨的一缕阳光从窗户懒懒地洒进来，

Databricks公司的CEO阿里·戈西（Ali Ghodsi）从美梦中笑醒。

AI咆哮后，一个赚大钱的AI+Data公司估值居然430亿美元？

“这是一家分析数据的云软件平台公司”，外国财经媒体描述语焉不详。市面上也有很多人管Databricks叫大数据公司。

采访镜头里，CEO意气风发，豪言壮语言，他相信公司已成为世界上“增长最快的软件公司”。

虽然美国美联储加息周期仍未结束，但是美股科技指标股走得好，诸位贵人，别着急。

戈西CEO的说法，我不敢附和，或许会违反某国广告法。

增长速度如此之快着实少见，戈西CEO说其中之一的增长原因是，数据仓库产品(从2021年12月发布到2023年4月共计17个月)服务收入总额（准确说是ARR，这词后面解释）超过一亿美元。

也就是说，一个刚起步的业务，只用17个月就做到了如此成绩。

不难发现，这家公司是谭老师我长期观察，且内心喜爱的科技公司。

为啥喜欢？

既爱创新，又很能打，年收入10个亿美金，谁不喜欢。

盈利，产品，技术项项都能叩开投资人心门。

估值讨论事宜还处于商讨阶段，也有可能破裂。

估值数额来自外媒爆料，想当年，Databricks也度过一段不尽如人意的日子：在2022年底其估值下调至310亿美元。如今，掉在地下的面子都捡起来了。

拿Databricks的估值和谁比较才好呢？

那非Snowflake莫属。

Snowflake和Databricks一开始很不同。Databricks从一个大名鼎鼎的开源计算引擎Spark起家。想当年，谭老师我还买了一本书叫做《Spark高级数据分析》，阅读后发现是用Scala语言来教我做数据分析。

Spark计算是分布式的，存储在数据湖上，所以，Databricks是从数据湖往数据湖仓方向前进。而Snowflake则不同，它是数据仓库起家，也往湖仓方向前进。

反正，湖仓就是大趋势，这点果然“英雄所见略同”

好比，以前美团APP是外卖起家想做打车业务，而滴滴APP是打车业务起家想做外卖业务。如果美团和滴滴均把打车和外卖都做好了，那就有点像现在Databricks和Snowflake的竞争态势了。

相信你也看出来了，我对Snowflake也是不吝赞美。

粗略地用一家估值和另一家市值对比，看上去，趋势线有碰面的可能。

在如此靠后的融资轮次上，有研究认为（其实就是我认为）投资人主要考察的重点不外乎两点：

公司营收，营收增速。两者均佳，估值乐观。

第一，营收。

这种平台性的公司最重要的指标是年度订阅收入+从附加组件和升级收入（财报上的Annual recurring revenue，ARR），那些每年每月都付钱的客户，谁人不爱，也有人理解为“租金”。

企业市场做得好是Databricks一大亮点，企业客户有钱，而且让企业客户越离不开，就越赚钱。有些技术超强的公司痴迷技术领先，可惜把“技术极客”服务好了也很难赚钱，他们有超高的工程化能力，谁还付费。

第二，增速。

敢问一句，有没有一种可能，我是说可能，Databricks的营收增速高于Snowflake？

我可没有说我问过Databricks员工。

AI咆哮后，一个赚大钱的AI+Data公司估值居然430亿美元？

有研究认为（其实就是我认为），无需去猜市场上或者别的投资者会出什么价，正确“估值”是这公司能挣多少钱，以后若干年能挣多少钱。

阿里·戈西说：“我们总会上市。”

这对上市的态度有些佛系了吧？赢家都是这样。

甚至，在他看来，没公开上市的好处是：想买什么AI公司都可以放开了买。

“上市之后，想证明这些收购的合理性就会困难得多。”

他如此说。

（二）AI咆哮的红利

第三浪，不辜负。

大模型大风吹到，数据加人工智能（Data +AI）龙头公司终于成了“显眼包”。

这里，还是要谨慎提醒一句，在没有大模型以前，Databricks的AI平台准确地说是传统机器学习平台。此AI，非彼AI，以免混淆讨论。

多数甲方企业用AI还是在关系型数据上面做机器学习，比如，财务数据用来进行销量预测。

再说回浪潮。

细数，这已是数据领域第三次浪潮，前两次分别是数据库和大数据，五六十年前和二十几年前。

数据库和大数据相辅相成，大数据和人工智能亦如此。

这一轮大模型创业公司当中，几乎100%的大模型公司团队都有数据组，而且数据组的负责人有时还会是个博士。我知道的一家国产大模型独角兽的数据负责人是博士，还有，美团大模型团队数据组负责人也是博士。

我描述这个现象是想强调，数据组的技术含量很高。他们招聘数据清洗、标注、挖掘等等职位的工程师，负责大模型的数据工作。

看吧，“数据贵如石油”的风又吹回来了。

是时候，让魔法加持魔法了。

你看那镜头前的戈西CEO，礼貌一笑，嘴上贵贵贵，手上买买买。

收购人工智能初创公司MosaicML（贵死了，做AI基础设施），

收购人工智能存储初创公司Rubicon（没公布价格，做AI存储），

收购人工智能数据治理初创公司Okera（没公布价格，全球为数不多的面向AI的数据治理平台，将其技术整合到Databrick数据目录产品Unity Catalog）。

AI咆哮后，一个赚大钱的AI+Data公司估值居然430亿美元？

天下武功，唯快不破。

这简直把AI创业公司的核心技术当AI组件一个劲地往自己的平台上组装，Databrick你真行。

Data+AI平台的生产线越长，越统一，越完备，就越有优势，企业用户来了就别想走，别家就不用去。

被组装的不止“AI创业公司”。

数据仓库、数据湖、数据库皆可被视为Data平台里面的功能组件。

只不过它们有个共同的任务——负责存储。你可以有仓库，有管结构化数据的存储组件，也可以有数据湖做非结构化存储组件。

甚至可以这样理解，传统的机器学习平台也是数据平台的组装件之一。

以前， AI负载占比不算多，很多企业把它当成一个相对独立组件，现在更强调融合。

不仅如此，现在，还需要大模型专用组件。

总之，Data平台像一个大型装配生产流水线。

AI咆哮后，一个赚大钱的AI+Data公司估值居然430亿美元？

不过这种表述是增加你对Data平台和AI平台的理解，在实际场景中，在企业里，数据平台和AI平台不是包含关系。

AI平台用到数据平台里的数据。如果那些做AI平台产品的公司硬要把自己包装成数据平台也能做，最后结果是跟企业客户已经有的数据平台打架，卖不进去。

我们回到大模型创业公司数据组这个例子，不止他们，甲方客户企业也会重新考虑数据库里这些成堆的数据，怎么能被大模型消费掉。这必然带动数据摄取、数据转化、数据存储等业务量。

或者说，如果一个企业其实它有机会能采到很多的数据，但不能把这个数据保存或者用起来，这个平台就不称职了。

红利逻辑是，数据好，模型好，有了信心，更多资源投入到建设公司核心数据资产这件事上。

Databricks吃到了“红利”，还吃了两次。

（三）技术栈

Data平台和AI平台可以从多个是视角来看：

在采购视角下，好比采购两种不同的标准化组件。

业务视角下，都需要统一平台，越方便，越便宜，越好。

技术视角下，两个平台用完全不同的计算引擎，干完全不同的事情。

如果有人问我，Data平台和AI平台哪个更重要，我只能说：Data平台（数据库、大数据系统）已经是必选项了，AI 还是可选项。

往深处聊，聊聊Data和AI的技术栈。

二者截然不同。

先看数据技术栈，有研究认为（其实就是我认为），这些年，数据技术栈中唯一不变的就的趋势。比如从离线到实时，从多个引擎到统一引擎，从Lambda到Kappa架构……

再看AI技术栈，有两个大模型带来的难点：

第一，AI技术栈自有特色，自成体系，建设、维护和系统的复杂度高。传统IT软件就没有模型这个事物。

第二，AI技术栈正在发生重塑性变革，新的软件栈正在形成之中。

一部分旧式AI基础设施会逐渐消失，或者用处有限。就像汽车车轴上的零配件淘汰青铜兽面纹车軎（wèi）。

的确，无论是Data平台，还是 AI 平台都没法来用自己的经验解决对方的问题，所以，有位AI大佬曾对我说，Databricks 没法自己生长出AI 大模型产品，想要拥有完整的产品体验，要么合作，要么购买。

Databricks果断购买。

即便如此，依然面临的难题有：

第一，对海量异构数据存储和管理。

第二，对AI 计算范式的支持。

第三，如何设计Data 和 AI 结合而来的新的产品形态。

还有很多有意思的小问题，答案可能不止一个：

1.数据库和AI怎么结合出新产品？

有人可能会回答向量数据库。

2.MLOps（机器学习运维）或LLMOps（大语言模型运维）如何调整与设计？

答案可能是增加向量检索组件，增加和提示工程有关的功能。

3.数据湖仓的趋势是什么？

有的答案是用统一且完整的产品，取代一堆产品的组合解决方案的局面。

AI咆哮后，一个赚大钱的AI+Data公司估值居然430亿美元？

所有的难题，不止Databricks在干，其他竞品也在干，那就要看谁干得好。

有研究认为（其实就是我认为），有些问题Databricks正在解决，有些基本解决了。

Databricks的答案包括：

第一，支持大模型的需求，比如，帮甲方企业用户既低成本易用地训练、微调和管理这些模型。例如，如何用小规模专有数据集微调大模型。

第二，用开放湖仓架构支持AI。

资深架构师会告诉你，这类产品从计算引擎做到存储架构，痛苦并不是计算引擎带来的，而是存储架构带来的。好比，有了你我以为躲过了暴风雨，结果发现你就是暴风雨。因为存储架构面对的难题比计算引擎大。

传统的为结构化数据设计的数仓架构不能很好地支撑 AI，而Databricks的做法是，从数据湖仓上发展出支持AI的能力。

第三，搞定自有场景。

那些有生成式AI能力的公司都在自家场景院子里大干快上、挥汗如雨，Databricks也是比较积极的一个。

据说Databricks在2023年年初的时候，公司内部流行语是：“今天你用了 LLM 吗？”，谭老师我上次听到的如此上头的文案还是在咖啡店的时候：“今天你没事（美式）了吗？”

用Apache Spark功能运行Python应用程序的时候，因为API有上千个之多，知识过于密集。

于是，Databricks发布了“English SDK”，考虑用大语言模型学习理解Apache Spark API 。

2023年是Spark进入Apache基金户会的第十周年。可想而知积累了很多开源文档、QA问答。这些喂给大模型，以便用户用英文发号施令以代替代码编程做指挥棒。

不能只说好不说差，Databricks是跑得飞快的美国公司，而今大部分企业的数字化水平仍然较差，无法自建AI，至今连AI都用不上。

谭老师我最喜黄昏（因为早上起不来），天边映晚照，余霞可爱多。

不知道Databricks的其他几位创始人近期看晚霞是什么样的好心情，毕竟估值430亿美金了。

其他几位创始人是谁呢？

他们是Andy Konwinski，Arsalan Tavakoli-Shiraji，Ion Stoica，Matei Zaharia，Patrick Wendell和Reynold Xin（辛湜）。

文章转载自微信公众号”亲爱的数据“，作者亲爱的数据谭婧

关键词: Databricks , AI数据 , AI存储 , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner