悄然间,Databricks公司逆风扬帆,将估值推到430亿美元。
因其仍未上市,且行为低调,财务构成长久以来都是秘密。
Databricks中文名直译:数据砖头。
但似乎没人这么叫,太土了。
念出Databricks,发五个音节,短促干脆,给人以一种美国湾区科技的既视感,很高级,有排面。
这又是一个美元堆上的新故事。
清晨的一缕阳光从窗户懒懒地洒进来,
Databricks公司的CEO阿里·戈西(Ali Ghodsi)从美梦中笑醒。
“这是一家分析数据的云软件平台公司”,外国财经媒体描述语焉不详。市面上也有很多人管Databricks叫大数据公司。
采访镜头里,CEO意气风发,豪言壮语言,他相信公司已成为世界上“增长最快的软件公司”。
虽然美国美联储加息周期仍未结束,但是美股科技指标股走得好,诸位贵人,别着急。
戈西CEO的说法,我不敢附和,或许会违反某国广告法。
增长速度如此之快着实少见,戈西CEO说其中之一的增长原因是,数据仓库产品(从2021年12月发布到2023年4月共计17个月)服务收入总额(准确说是ARR,这词后面解释)超过一亿美元。
也就是说,一个刚起步的业务,只用17个月就做到了如此成绩。
不难发现,这家公司是谭老师我长期观察,且内心喜爱的科技公司。
为啥喜欢?
既爱创新,又很能打,年收入10个亿美金,谁不喜欢。
盈利,产品,技术项项都能叩开投资人心门。
估值讨论事宜还处于商讨阶段,也有可能破裂。
估值数额来自外媒爆料,想当年,Databricks也度过一段不尽如人意的日子:在2022年底其估值下调至310亿美元。如今,掉在地下的面子都捡起来了。
拿Databricks的估值和谁比较才好呢?
那非Snowflake莫属。
Snowflake和Databricks一开始很不同。Databricks从一个大名鼎鼎的开源计算引擎Spark起家。想当年,谭老师我还买了一本书叫做《Spark高级数据分析》,阅读后发现是用Scala语言来教我做数据分析。
Spark计算是分布式的,存储在数据湖上,所以,Databricks是从数据湖往数据湖仓方向前进。而Snowflake则不同,它是数据仓库起家,也往湖仓方向前进。
反正,湖仓就是大趋势,这点果然“英雄所见略同”
好比,以前美团APP是外卖起家想做打车业务,而滴滴APP是打车业务起家想做外卖业务。如果美团和滴滴均把打车和外卖都做好了,那就有点像现在Databricks和Snowflake的竞争态势了。
相信你也看出来了,我对Snowflake也是不吝赞美。
粗略地用一家估值和另一家市值对比,看上去,趋势线有碰面的可能。
在如此靠后的融资轮次上,有研究认为(其实就是我认为)投资人主要考察的重点不外乎两点:
公司营收,营收增速。两者均佳,估值乐观。
第一,营收。
这种平台性的公司最重要的指标是年度订阅收入+从附加组件和升级收入(财报上的Annual recurring revenue,ARR),那些每年每月都付钱的客户,谁人不爱,也有人理解为“租金”。
企业市场做得好是Databricks一大亮点,企业客户有钱,而且让企业客户越离不开,就越赚钱。有些技术超强的公司痴迷技术领先,可惜把“技术极客”服务好了也很难赚钱,他们有超高的工程化能力,谁还付费。
第二,增速。
敢问一句,有没有一种可能,我是说可能,Databricks的营收增速高于Snowflake?
我可没有说我问过Databricks员工。
有研究认为(其实就是我认为),无需去猜市场上或者别的投资者会出什么价,正确“估值”是这公司能挣多少钱,以后若干年能挣多少钱。
阿里·戈西说:“我们总会上市。”
这对上市的态度有些佛系了吧?赢家都是这样。
甚至,在他看来,没公开上市的好处是:想买什么AI公司都可以放开了买。
“上市之后,想证明这些收购的合理性就会困难得多。”
他如此说。
第三浪,不辜负。
大模型大风吹到,数据加人工智能(Data +AI)龙头公司终于成了“显眼包”。
这里,还是要谨慎提醒一句,在没有大模型以前,Databricks的AI平台准确地说是传统机器学习平台。此AI,非彼AI,以免混淆讨论。
多数甲方企业用AI还是在关系型数据上面做机器学习,比如,财务数据用来进行销量预测。
再说回浪潮。
细数,这已是数据领域第三次浪潮,前两次分别是数据库和大数据,五六十年前和二十几年前。
数据库和大数据相辅相成,大数据和人工智能亦如此。
这一轮大模型创业公司当中,几乎100%的大模型公司团队都有数据组,而且数据组的负责人有时还会是个博士。我知道的一家国产大模型独角兽的数据负责人是博士,还有,美团大模型团队数据组负责人也是博士。
我描述这个现象是想强调,数据组的技术含量很高。他们招聘数据清洗、标注、挖掘等等职位的工程师,负责大模型的数据工作。
看吧,“数据贵如石油”的风又吹回来了。
是时候,让魔法加持魔法了。
你看那镜头前的戈西CEO,礼貌一笑,嘴上贵贵贵,手上买买买。
收购人工智能初创公司MosaicML(贵死了,做AI基础设施),
收购人工智能存储初创公司Rubicon(没公布价格,做AI存储),
收购人工智能数据治理初创公司Okera(没公布价格,全球为数不多的面向AI的数据治理平台,将其技术整合到Databrick数据目录产品Unity Catalog)。
天下武功,唯快不破。
这简直把AI创业公司的核心技术当AI组件一个劲地往自己的平台上组装,Databrick你真行。
Data+AI平台的生产线越长,越统一,越完备,就越有优势,企业用户来了就别想走,别家就不用去。
被组装的不止“AI创业公司”。
数据仓库、数据湖、数据库皆可被视为Data平台里面的功能组件。
只不过它们有个共同的任务——负责存储。你可以有仓库,有管结构化数据的存储组件,也可以有数据湖做非结构化存储组件。
甚至可以这样理解,传统的机器学习平台也是数据平台的组装件之一。
以前, AI负载占比不算多,很多企业把它当成一个相对独立组件,现在更强调融合。
不仅如此,现在,还需要大模型专用组件。
总之,Data平台像一个大型装配生产流水线。
不过这种表述是增加你对Data平台和AI平台的理解,在实际场景中,在企业里,数据平台和AI平台不是包含关系。
AI平台用到数据平台里的数据。如果那些做AI平台产品的公司硬要把自己包装成数据平台也能做,最后结果是跟企业客户已经有的数据平台打架,卖不进去。
我们回到大模型创业公司数据组这个例子,不止他们,甲方客户企业也会重新考虑数据库里这些成堆的数据,怎么能被大模型消费掉。这必然带动数据摄取、数据转化、数据存储等业务量。
或者说,如果一个企业其实它有机会能采到很多的数据,但不能把这个数据保存或者用起来,这个平台就不称职了。
红利逻辑是,数据好,模型好,有了信心,更多资源投入到建设公司核心数据资产这件事上。
Databricks吃到了“红利”,还吃了两次。
Data平台和AI平台可以从多个是视角来看:
在采购视角下,好比采购两种不同的标准化组件。
业务视角下,都需要统一平台,越方便,越便宜,越好。
技术视角下,两个平台用完全不同的计算引擎,干完全不同的事情。
如果有人问我,Data平台和AI平台哪个更重要,我只能说:Data平台(数据库、大数据系统)已经是必选项了,AI 还是可选项。
往深处聊,聊聊Data和AI的技术栈。
二者截然不同。
先看数据技术栈,有研究认为(其实就是我认为),这些年,数据技术栈中唯一不变的就的趋势。比如从离线到实时,从多个引擎到统一引擎,从Lambda到Kappa架构……
再看AI技术栈,有两个大模型带来的难点:
第一,AI技术栈自有特色,自成体系,建设、维护和系统的复杂度高。传统IT软件就没有模型这个事物。
第二,AI技术栈正在发生重塑性变革,新的软件栈正在形成之中。
一部分旧式AI基础设施会逐渐消失,或者用处有限。就像汽车车轴上的零配件淘汰青铜兽面纹车軎(wèi)。
的确,无论是Data平台,还是 AI 平台都没法来用自己的经验解决对方的问题,所以,有位AI大佬曾对我说,Databricks 没法自己生长出AI 大模型产品,想要拥有完整的产品体验,要么合作,要么购买。
Databricks果断购买。
即便如此,依然面临的难题有:
第一,对海量异构数据存储和管理。
第二,对AI 计算范式的支持。
第三,如何设计Data 和 AI 结合而来的新的产品形态。
还有很多有意思的小问题,答案可能不止一个:
1.数据库和AI怎么结合出新产品?
有人可能会回答向量数据库。
2.MLOps(机器学习运维)或LLMOps(大语言模型运维)如何调整与设计?
答案可能是增加向量检索组件,增加和提示工程有关的功能。
3.数据湖仓的趋势是什么?
有的答案是用统一且完整的产品,取代一堆产品的组合解决方案的局面。
所有的难题,不止Databricks在干,其他竞品也在干,那就要看谁干得好。
有研究认为(其实就是我认为),有些问题Databricks正在解决,有些基本解决了。
Databricks的答案包括:
第一,支持大模型的需求,比如,帮甲方企业用户既低成本易用地训练、微调和管理这些模型。例如,如何用小规模专有数据集微调大模型。
第二,用开放湖仓架构支持AI。
资深架构师会告诉你,这类产品从计算引擎做到存储架构,痛苦并不是计算引擎带来的,而是存储架构带来的。好比,有了你我以为躲过了暴风雨,结果发现你就是暴风雨。因为存储架构面对的难题比计算引擎大。
传统的为结构化数据设计的数仓架构不能很好地支撑 AI,而Databricks的做法是,从数据湖仓上发展出支持AI的能力。
第三,搞定自有场景。
那些有生成式AI能力的公司都在自家场景院子里大干快上、挥汗如雨,Databricks也是比较积极的一个。
据说Databricks在2023年年初的时候,公司内部流行语是:“今天你用了 LLM 吗?”,谭老师我上次听到的如此上头的文案还是在咖啡店的时候:“今天你没事(美式)了吗?”
用Apache Spark功能运行Python应用程序的时候,因为API有上千个之多,知识过于密集。
于是,Databricks发布了“English SDK”,考虑用大语言模型学习理解Apache Spark API 。
2023年是Spark进入Apache基金户会的第十周年。可想而知积累了很多开源文档、QA问答。这些喂给大模型,以便用户用英文发号施令以代替代码编程做指挥棒。
不能只说好不说差,Databricks是跑得飞快的美国公司,而今大部分企业的数字化水平仍然较差,无法自建AI,至今连AI都用不上。
谭老师我最喜黄昏(因为早上起不来),天边映晚照,余霞可爱多。
不知道Databricks的其他几位创始人近期看晚霞是什么样的好心情,毕竟估值430亿美金了。
其他几位创始人是谁呢?
他们是Andy Konwinski,Arsalan Tavakoli-Shiraji,Ion Stoica,Matei Zaharia,Patrick Wendell和Reynold Xin(辛湜)。
文章转载自微信公众号”亲爱的数据“,作者 亲爱的数据 谭婧
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner