databricks:一个给数据工程师的平台( 二 )


他们赌的另一条路 , 是不做数仓 。
彼时数据仓库竞争过于激烈 , 以亚马逊为首的巨头占据了大部分市场份额 , Databricks继续小众打法:避开红海 , 尝试切入一个新兴却可能会有爆炸性增长的小市场 , 针对数据科学家、数据工程师和AI的方向做产品 。
开源小公司的优势在于更懂项目 , 迭代更快 , 能够聚焦、死磕产品性能 , 而公有云大厂很难在单一方向投入最好的工程师 。随着数据量的爆发 , 云的生态优势逐渐被认可 , 加上当时市面上也没有大量竞品 , 这给Databricks的产品带来了机会 。
另一方面 , 在2019年微软投资Databricks之前 , 正巧CEO纳德拉推动云为先的战略 , 两家合作的AzureDatabricks进入了微软的企业许可协议 。微软从一个大数据竞争劣势的云产品摇身成为业界领先 , 形成了云巨头三足鼎立的局面;因为几乎所有大企业都和微软有ELA , 共生效应之下 , 客户原本买云买Office的预算自然流向了Databricks 。
有人将Databricks创始团队比作一群幸运的加州嬉皮士RD , 他们信仰技术 , 信仰来源 , 信仰共享和长期主义 , 这些也都成为了Databricks的底色 。
02超级加倍
让所有人感到意外的是 , 2019年后 , Databricks以绝无仅有的加速度在增长 。
截至2021年2月 , 公司已经筹集了近20亿美元资金 , 包括由富兰克林邓普顿领投的10亿美元G轮融资 , 此时Databricks估值已经达到280亿美元;在经过最新轮融资后 , Databricks380亿的身价与三年前的62亿相比暴增了近13倍 。
基本面决定价值 , 价值决定价格 , 如果将Databricks的成功仅归结于对技术犀利的洞察 , 借助了巨人的肩膀和好运气 , 这还远远不够 。基于开源的创新是Databricks成长的关键 , 从大数据领域杀入云计算和AI , 它的产品矩阵里包括DeltaLake、MLflow、Koalas以及开源分析引擎Spark等杀伤利器 。
其中 , 超过80%的用户使用DeltaLake;MLFlow为数据科学家提供了标准化的开源框架 , 下载量以每月80万的速度增长 , 拥有比Spark更多的用户;而Koalas可以让数据科学家在笔记本电脑上使用Pandas编程 , 调用几个API就可以将工作部署到大型的分布式Spark集群上 , 把Pandas社区的数据科学创新带给了Spark用户 。
帮助其他企业构建自己的AI能力 , 透露出了Databricks的野心:从BI到AI , 构建一个企业AI平台 , 因为Ghodsi认为 , 在企业计算领域 , 行业还没有出现头部的企业AI平台 。
除了软件产品本身 , Databricks的业务模式也有所不同 。
传统的开源商业模式是软件免费 , 厂商收取支持和服务费用 , 这在on-prem里或许可行 , 但在云的世界就不一定了 。Databricks在开发、软件运行、运营和托管方面向客户收费 , 采用SaaS开源的盈利模式 , 客户可以在本地开源平台下载免费的基础软件 , 同时也可以下载开源公司打造的其他付费版本 。
不高估开源 , 也不低估市场 , Ghodsi说:“在云端托管开源项目并把它们租给用户 , 客户流失率更低 , 利润增长更快” 。SaaS租赁模式下 , Databricks的核心知识产权没有存放在它所赞助的开源软件项目中 , 而是在它用来监管云端软件的工具中 , 这样避免了泄露的风险 。
根据报告 , Databricks最新ARR(年度经常性收入)达到6亿美元 , 相当于Snowflake同财年12亿营业收入的一半 , 截至目前 , 后者市值近670亿美元 , 如果按照两倍之比来简单预估 , Databricks380亿的估值也比较合理 。以新估值计算 , Databricks的价值是当前ARR的63倍 , 相较于2020年的4.25亿美元 , ARR近30%的增长率让投资者对它未来的收入十分看好 。