# 热门搜索 #
搜索
AI咆哮后,一个赚大钱的AI+Data公司估值居然430亿美元?
18724点击    2023-09-15 14:32


悄然间,Databricks公司逆风扬帆,将估值推到430亿美元。


因其仍未上市,且行为低调,财务构成长久以来都是秘密。


Databricks中文名直译:数据砖头。


但似乎没人这么叫,太土了。


念出Databricks,发五个音节,短促干脆,给人以一种美国湾区科技的既视感,很高级,有排面。


这又是一个美元堆上的新故事。


(一)营收多少?增速多快?


清晨的一缕阳光从窗户懒懒地洒进来,


Databricks公司的CEO阿里·戈西(Ali Ghodsi)从美梦中笑醒。



“这是一家分析数据的云软件平台公司”,外国财经媒体描述语焉不详。市面上也有很多人管Databricks叫大数据公司。


采访镜头里,CEO意气风发,豪言壮语言,他相信公司已成为世界上“增长最快的软件公司”。


虽然美国美联储加息周期仍未结束,但是美股科技指标股走得好,诸位贵人,别着急。


戈西CEO的说法,我不敢附和,或许会违反某国广告法。


增长速度如此之快着实少见,戈西CEO说其中之一的增长原因是,数据仓库产品(从2021年12月发布到2023年4月共计17个月)服务收入总额(准确说是ARR,这词后面解释)超过一亿美元。

也就是说,一个刚起步的业务,只用17个月就做到了如此成绩。


不难发现,这家公司是谭老师我长期观察,且内心喜爱的科技公司。


为啥喜欢?


既爱创新,又很能打,年收入10个亿美金,谁不喜欢。


盈利,产品,技术项项都能叩开投资人心门。


估值讨论事宜还处于商讨阶段,也有可能破裂。


估值数额来自外媒爆料,想当年,Databricks也度过一段不尽如人意的日子:在2022年底其估值下调至310亿美元。如今,掉在地下的面子都捡起来了。


拿Databricks的估值和谁比较才好呢?


那非Snowflake莫属。


Snowflake和Databricks一开始很不同。Databricks从一个大名鼎鼎的开源计算引擎Spark起家。想当年,谭老师我还买了一本书叫做《Spark高级数据分析》,阅读后发现是用Scala语言来教我做数据分析。


Spark计算是分布式的,存储在数据湖上,所以,Databricks是从数据湖往数据湖仓方向前进。而Snowflake则不同,它是数据仓库起家,也往湖仓方向前进。


反正,湖仓就是大趋势,这点果然“英雄所见略同”


好比,以前美团APP是外卖起家想做打车业务,而滴滴APP是打车业务起家想做外卖业务。如果美团和滴滴均把打车和外卖都做好了,那就有点像现在Databricks和Snowflake的竞争态势了。

相信你也看出来了,我对Snowflake也是不吝赞美。


粗略地用一家估值和另一家市值对比,看上去,趋势线有碰面的可能。


在如此靠后的融资轮次上,有研究认为(其实就是我认为)投资人主要考察的重点不外乎两点:


公司营收,营收增速。两者均佳,估值乐观。


第一,营收。


这种平台性的公司最重要的指标是年度订阅收入+从附加组件和升级收入(财报上的Annual recurring revenue,ARR),那些每年每月都付钱的客户,谁人不爱,也有人理解为“租金”。

企业市场做得好是Databricks一大亮点,企业客户有钱,而且让企业客户越离不开,就越赚钱。有些技术超强的公司痴迷技术领先,可惜把“技术极客”服务好了也很难赚钱,他们有超高的工程化能力,谁还付费。


第二,增速。


敢问一句,有没有一种可能,我是说可能,Databricks的营收增速高于Snowflake?


我可没有说我问过Databricks员工。



有研究认为(其实就是我认为),无需去猜市场上或者别的投资者会出什么价,正确“估值”是这公司能挣多少钱,以后若干年能挣多少钱。


阿里·戈西说:“我们总会上市。”


这对上市的态度有些佛系了吧?赢家都是这样。


甚至,在他看来,没公开上市的好处是:想买什么AI公司都可以放开了买。


“上市之后,想证明这些收购的合理性就会困难得多。”


他如此说。


(二)AI咆哮的红利


第三浪,不辜负。


大模型大风吹到,数据加人工智能(Data +AI)龙头公司终于成了“显眼包”。


这里,还是要谨慎提醒一句,在没有大模型以前,Databricks的AI平台准确地说是传统机器学习平台。此AI,非彼AI,以免混淆讨论。


多数甲方企业用AI还是在关系型数据上面做机器学习,比如,财务数据用来进行销量预测。


再说回浪潮。


细数,这已是数据领域第三次浪潮,前两次分别是数据库和大数据,五六十年前和二十几年前。


数据库和大数据相辅相成,大数据和人工智能亦如此。


这一轮大模型创业公司当中,几乎100%的大模型公司团队都有数据组,而且数据组的负责人有时还会是个博士。我知道的一家国产大模型独角兽的数据负责人是博士,还有,美团大模型团队数据组负责人也是博士。


我描述这个现象是想强调,数据组的技术含量很高。他们招聘数据清洗、标注、挖掘等等职位的工程师,负责大模型的数据工作。


看吧,“数据贵如石油”的风又吹回来了。


是时候,让魔法加持魔法了。


你看那镜头前的戈西CEO,礼貌一笑,嘴上贵贵贵,手上买买买。


收购人工智能初创公司MosaicML(贵死了,做AI基础设施),


收购人工智能存储初创公司Rubicon(没公布价格,做AI存储),


收购人工智能数据治理初创公司Okera(没公布价格,全球为数不多的面向AI的数据治理平台,将其技术整合到Databrick数据目录产品Unity Catalog)。



天下武功,唯快不破。


这简直把AI创业公司的核心技术当AI组件一个劲地往自己的平台上组装,Databrick你真行。


Data+AI平台的生产线越长,越统一,越完备,就越有优势,企业用户来了就别想走,别家就不用去。


被组装的不止“AI创业公司”。


数据仓库、数据湖、数据库皆可被视为Data平台里面的功能组件。


只不过它们有个共同的任务——负责存储。你可以有仓库,有管结构化数据的存储组件,也可以有数据湖做非结构化存储组件。


甚至可以这样理解,传统的机器学习平台也是数据平台的组装件之一。


以前, AI负载占比不算多,很多企业把它当成一个相对独立组件,现在更强调融合。


不仅如此,现在,还需要大模型专用组件。


总之,Data平台像一个大型装配生产流水线。




不过这种表述是增加你对Data平台和AI平台的理解,在实际场景中,在企业里,数据平台和AI平台不是包含关系。


AI平台用到数据平台里的数据。如果那些做AI平台产品的公司硬要把自己包装成数据平台也能做,最后结果是跟企业客户已经有的数据平台打架,卖不进去。


我们回到大模型创业公司数据组这个例子,不止他们,甲方客户企业也会重新考虑数据库里这些成堆的数据,怎么能被大模型消费掉。这必然带动数据摄取、数据转化、数据存储等业务量。

或者说,如果一个企业其实它有机会能采到很多的数据,但不能把这个数据保存或者用起来,这个平台就不称职了。


红利逻辑是,数据好,模型好,有了信心,更多资源投入到建设公司核心数据资产这件事上。


Databricks吃到了“红利”,还吃了两次。


(三)技术栈


Data平台和AI平台可以从多个是视角来看:


在采购视角下,好比采购两种不同的标准化组件。


业务视角下,都需要统一平台,越方便,越便宜,越好。


技术视角下,两个平台用完全不同的计算引擎,干完全不同的事情。


如果有人问我,Data平台和AI平台哪个更重要,我只能说:Data平台(数据库、大数据系统)已经是必选项了,AI 还是可选项。


往深处聊,聊聊Data和AI的技术栈。


二者截然不同。


先看数据技术栈,有研究认为(其实就是我认为),这些年,数据技术栈中唯一不变的就的趋势。比如从离线到实时,从多个引擎到统一引擎,从Lambda到Kappa架构……


再看AI技术栈,有两个大模型带来的难点:


第一,AI技术栈自有特色,自成体系,建设、维护和系统的复杂度高。传统IT软件就没有模型这个事物。


第二,AI技术栈正在发生重塑性变革,新的软件栈正在形成之中。


一部分旧式AI基础设施会逐渐消失,或者用处有限。就像汽车车轴上的零配件淘汰青铜兽面纹车軎(wèi)。


的确,无论是Data平台,还是 AI 平台都没法来用自己的经验解决对方的问题,所以,有位AI大佬曾对我说,Databricks 没法自己生长出AI 大模型产品,想要拥有完整的产品体验,要么合作,要么购买。


Databricks果断购买。


即便如此,依然面临的难题有:


第一,对海量异构数据存储和管理。

第二,对AI 计算范式的支持。

第三,如何设计Data 和 AI 结合而来的新的产品形态。


还有很多有意思的小问题,答案可能不止一个:


1.数据库和AI怎么结合出新产品?

有人可能会回答向量数据库。


2.MLOps(机器学习运维)或LLMOps(大语言模型运维)如何调整与设计?

答案可能是增加向量检索组件,增加和提示工程有关的功能。


3.数据湖仓的趋势是什么?

有的答案是用统一且完整的产品,取代一堆产品的组合解决方案的局面。



所有的难题,不止Databricks在干,其他竞品也在干,那就要看谁干得好。


有研究认为(其实就是我认为),有些问题Databricks正在解决,有些基本解决了。


Databricks的答案包括:


第一,支持大模型的需求,比如,帮甲方企业用户既低成本易用地训练、微调和管理这些模型。例如,如何用小规模专有数据集微调大模型。


第二,用开放湖仓架构支持AI。


资深架构师会告诉你,这类产品从计算引擎做到存储架构,痛苦并不是计算引擎带来的,而是存储架构带来的。好比,有了你我以为躲过了暴风雨,结果发现你就是暴风雨。因为存储架构面对的难题比计算引擎大。


传统的为结构化数据设计的数仓架构不能很好地支撑 AI,而Databricks的做法是,从数据湖仓上发展出支持AI的能力。


第三,搞定自有场景。


那些有生成式AI能力的公司都在自家场景院子里大干快上、挥汗如雨,Databricks也是比较积极的一个。


据说Databricks在2023年年初的时候,公司内部流行语是:“今天你用了 LLM 吗?”,谭老师我上次听到的如此上头的文案还是在咖啡店的时候:“今天你没事(美式)了吗?”


用Apache Spark功能运行Python应用程序的时候,因为API有上千个之多,知识过于密集。


于是,Databricks发布了“English SDK”,考虑用大语言模型学习理解Apache Spark API 。


2023年是Spark进入Apache基金户会的第十周年。可想而知积累了很多开源文档、QA问答。这些喂给大模型,以便用户用英文发号施令以代替代码编程做指挥棒。


不能只说好不说差,Databricks是跑得飞快的美国公司,而今大部分企业的数字化水平仍然较差,无法自建AI,至今连AI都用不上。


谭老师我最喜黄昏(因为早上起不来),天边映晚照,余霞可爱多。


不知道Databricks的其他几位创始人近期看晚霞是什么样的好心情,毕竟估值430亿美金了。


其他几位创始人是谁呢?


他们是Andy Konwinski,Arsalan Tavakoli-Shiraji,Ion Stoica,Matei Zaharia,Patrick Wendell和Reynold Xin(辛湜)。



文章转载自微信公众号”亲爱的数据“,作者 亲爱的数据 谭婧






关键词: Databricks , AI数据 , AI存储 , AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner