databricks：一个给数据工程师的平台( 二 ) 在数据库领域

他们赌的另一条路，是不做数仓。
彼时数据仓库竞争过于激烈，以亚马逊为首的巨头占据了大部分市场份额， Databricks继续小众打法：避开红海，尝试切入一个新兴却可能会有爆炸性增长的小市场，针对数据科学家、数据工程师和AI的方向做产品。
开源小公司的优势在于更懂项目，迭代更快，能够聚焦、死磕产品性能，而公有云大厂很难在单一方向投入最好的工程师。随着数据量的爆发，云的生态优势逐渐被认可，加上当时市面上也没有大量竞品，这给Databricks的产品带来了机会。
另一方面，在2019年微软投资Databricks之前，正巧CEO纳德拉推动云为先的战略，两家合作的AzureDatabricks进入了微软的企业许可协议。微软从一个大数据竞争劣势的云产品摇身成为业界领先，形成了云巨头三足鼎立的局面；因为几乎所有大企业都和微软有ELA ，共生效应之下，客户原本买云买Office的预算自然流向了Databricks 。
有人将Databricks创始团队比作一群幸运的加州嬉皮士RD ，他们信仰技术，信仰来源，信仰共享和长期主义，这些也都成为了Databricks的底色。
02超级加倍
让所有人感到意外的是， 2019年后， Databricks以绝无仅有的加速度在增长。
截至2021年2月，公司已经筹集了近20亿美元资金，包括由富兰克林邓普顿领投的10亿美元G轮融资，此时Databricks估值已经达到280亿美元；在经过最新轮融资后， Databricks380亿的身价与三年前的62亿相比暴增了近13倍。
基本面决定价值，价值决定价格，如果将Databricks的成功仅归结于对技术犀利的洞察，借助了巨人的肩膀和好运气，这还远远不够。基于开源的创新是Databricks成长的关键，从大数据领域杀入云计算和AI ，它的产品矩阵里包括DeltaLake、MLflow、Koalas以及开源分析引擎Spark等杀伤利器。
其中，超过80%的用户使用DeltaLake；MLFlow为数据科学家提供了标准化的开源框架，下载量以每月80万的速度增长，拥有比Spark更多的用户；而Koalas可以让数据科学家在笔记本电脑上使用Pandas编程，调用几个API就可以将工作部署到大型的分布式Spark集群上，把Pandas社区的数据科学创新带给了Spark用户。
帮助其他企业构建自己的AI能力，透露出了Databricks的野心：从BI到AI ，构建一个企业AI平台，因为Ghodsi认为，在企业计算领域，行业还没有出现头部的企业AI平台。
除了软件产品本身， Databricks的业务模式也有所不同。
传统的开源商业模式是软件免费，厂商收取支持和服务费用，这在on-prem里或许可行，但在云的世界就不一定了。Databricks在开发、软件运行、运营和托管方面向客户收费，采用SaaS开源的盈利模式，客户可以在本地开源平台下载免费的基础软件，同时也可以下载开源公司打造的其他付费版本。
不高估开源，也不低估市场， Ghodsi说：“在云端托管开源项目并把它们租给用户，客户流失率更低，利润增长更快” 。SaaS租赁模式下， Databricks的核心知识产权没有存放在它所赞助的开源软件项目中，而是在它用来监管云端软件的工具中，这样避免了泄露的风险。
根据报告， Databricks最新ARR(年度经常性收入)达到6亿美元，相当于Snowflake同财年12亿营业收入的一半，截至目前，后者市值近670亿美元，如果按照两倍之比来简单预估， Databricks380亿的估值也比较合理。以新估值计算， Databricks的价值是当前ARR的63倍，相较于2020年的4.25亿美元， ARR近30%的增长率让投资者对它未来的收入十分看好。