全球50强数据初创企业技术全景解析

3 阅读8分钟

Data50:全球顶尖50家数据初创公司

在“大数据”概念诞生十多年后,数据依然是驱动大型企业和新兴初创公司创新的最重要、增长最迅猛的引擎之一。从为业务运营提供基础性态势感知,到通过机器学习智能自动化日常任务,数据已成为各种规模组织决策的中枢神经系统。此外,数据的使用现已远超数据科学家、数据分析师和数据工程师的范围——每个人都是数据的生产者和消费者。

这种对数据日益关注的结果是:数据管理业务已经成为增长最快的基础设施领域之一,预计价值超过700亿美元,并占据了2021年企业基础设施总支出的五分之一以上。这一市场形成的美妙之处在于,它融合了软件工程、分析和人工智能领域,同时乘上了云计算的海啸势头。

数据行业的发展也在过去几年催生了一些最令人兴奋和最有影响力的企业软件公司。诸如Snowflake和Confluent等近期上市的巨头已经改变了数千家企业的运营方式和数百万产品的构建方式。然而,大多数人对那些推动者和颠覆者——即下一批定义新类别的公司——却不太熟悉。

为了在数据公司获得数百亿美元风险投资的破纪录的2021年(以及同样强劲的2022年)之后拨开迷雾,我们编制了首届Data50榜单。这些是数据领域最激动人心的类别中的风向标公司。这50家公司总估值超过1000亿美元,共筹集了约145亿美元的资本,其中20家公司在2021年已达到独角兽地位。

事不宜迟,我们很高兴向您介绍2022年的Data50。

Data50榜单

排名公司类别总部估值网站
1Databricks查询与处理旧金山,加利福尼亚州$50亿+Databricks
2FivetranELT与编排奥克兰,加利福尼亚州$50亿+Fivetran
3Scale.aiAI/ML帕洛阿尔托,加利福尼亚州$50亿+Scale.ai
4OneTrust数据治理与安全亚特兰大,佐治亚州$50亿+OneTrust
5Dbt labsELT与编排费城,宾夕法尼亚州10亿10亿-50亿Dbt labs
6Starburst查询与处理波士顿,马萨诸塞州10亿10亿-50亿Starburst
7Collibra数据治理与安全布鲁塞尔,比利时$50亿+Collibra
8Dremio查询与处理圣克拉拉,加利福尼亚州10亿10亿-50亿Dremio
9Dataiku查询与处理纽约,纽约州10亿10亿-50亿Dataiku
10Hugging FaceAI/ML纽约,纽约州2.5亿2.5亿-9.99亿Hugging Face
11DataRobot查询与处理波士顿,马萨诸塞州$50亿+DataRobot
12Primer.aiAI/ML旧金山,加利福尼亚州2.5亿2.5亿-9.99亿Primer.ai
13SnorkelAI/ML帕洛阿尔托,加利福尼亚州10亿10亿-50亿Snorkel
14AnyscaleAI/ML旧金山,加利福尼亚州10亿10亿-50亿Anyscale
15Firebolt查询与处理特拉维夫,以色列10亿10亿-50亿Firebolt
16AstronomerELT与编排辛辛那提,俄亥俄州1亿1亿-2.49亿Astronomer
17Alation数据治理与安全红木城,加利福尼亚州10亿10亿-50亿Alation
18Weights & BiasesAI/ML旧金山,加利福尼亚州10亿10亿-50亿Weights & Biases
19Sigma ComputingBI与Notebooks旧金山,加利福尼亚州10亿10亿-50亿Sigma Computing
20Monte Carlo数据可观测性旧金山,加利福尼亚州2.5亿2.5亿-9.99亿Monte Carlo
..................
(榜单后续公司信息已依据原文数据整理,此处为节省篇幅进行缩写)

方法论 Data50公司成立于2008年之后,在过去两年内获得了新融资,并且员工基数年增长率至少为30%。其产品是服务于跨行业数据或数据应用团队的横向技术。排名基于最新估值、公司规模、过去两年的员工增长、运营年限和当前收入规模的综合考量。员工数据基于某商业社交平台的公开数据。融资数据基于Pitchbook和Crunchbase的公开数据,截至2022年3月22日。请注意,此列表不包括诸如CockroachDB、PlanetScale和Yugabyte等事务型数据库公司,因为这些技术的数据使用本质上是事务性的,而非分析性的。

深入剖析,我们将Data50分为七个子类别:

查询与处理技术 是访问、聚合和计算数据的核心引擎。它涉及两个主要类别:批处理(例如Databricks和Starburst)和实时处理(例如ClickHouse和Imply)。过去几年,受实时应用需求增长的推动,后者获得了更多关注。

AI/ML 包括应用算法建模和机器学习处理大规模数据的软件。从众多上榜公司的数量可以看出,这个领域正在成熟和蓬勃发展。一些参与者专注于特定类型的数据(例如Rasa和Hugging Face专注于自然语言),而另一些则专注于不同领域,例如AI的产品化或作为运行AI工作负载的“计算层”。

ELT与编排 支持数据的移动。它是保证数据准确、准时到达目的地的传输层。这一类别由构建在本地拖放界面上的传统ETL供应商演变而来。另一方面,新一代参与者大多是云原生的、对开发者友好的,并能处理跨不同数据环境的更复杂依赖关系。

随着数据堆栈日益复杂且更多利益相关者参与其中,数据治理与安全 正成为关键问题。需要治理工具——尤其是在高度监管的行业——来保护数据并在整个数据生命周期中保持合规性。这个类别相对较新,通常服务于受监管的大型企业。

客户数据分析 传统上由营销团队负责。然而,由于其重要性日益增加,数据团队现在更多地参与将客户数据与中央数据平台集成。该类别专注于捕获客户数据,或运营这些数据以服务于一线的业务用例。

BI与Notebooks 覆盖了数据的消费层。尽管这是一个成熟的类别,但新的参与者正在采取开源优先的方法,吸引技术数据工程师以及商业智能团队。数据需求的快速变化性质也催生了对交互式Notebook和自动洞察生成的更多需求。

数据可观测性 借鉴了软件工程堆栈中的最佳实践。随着数据堆栈对上下游工具的依赖性日益增强,以及数据准确性产生更广泛的影响,可观测性作为最新的类别出现,为整个数据流提供监控和诊断能力。

尽管推动采用的主要市场顺风是数据量和数据使用的增加,但每个类别的底层驱动因素各不相同。例如,查询和处理领域的进步主要由计算与存储的分离、向云端的迁移以及更便宜的计算能力驱动。与此同时,数据治理和数据可观测性中运营工具的采用,则主要由日益增长的运营用例和数据工作流的复杂性驱动。

查询与处理公司筹集了大部分资金

查询与处理类别仅占Data50公司数量的五分之一,但投入到该类别的资本量——几乎占总融资额的50%——是惊人的。即使这个数据受到了某公司最近一轮16亿美元融资的影响,剔除该轮融资,该类别仍将占所有融资的37%,是下一类别融资额的两倍多。

从公司数量来看类别分布,则更为平衡。AI/ML是公司数量最多的类别,主要是因为该领域仍在发展,需要一套新的独立工具来训练、度量和生产化模型。

Data50集中在湾区

在50家公司中,47家(94%)总部设在美国,3家为国际公司。大多数公司(33家)总部设在旧金山湾区,9家位于华盛顿特区、费城、纽约和波士顿的I-95走廊沿线。两家总部设在西雅图,一家在辛辛那提,一家在亚特兰大。

这种分布深受大型数据生态系统历史所在地的影响。然而,随着数据工程人才和对数据工具的需求几乎遍及全球每个大洲,我们看到全球各地出现了更多的数据公司。

AI/ML类别推动了2019年数据公司的激增

大多数Data50公司成立于2014年之后,高峰出现在2019年左右,由AI/ML工具的爆发式增长驱动。事实上,2019年之后成立了更多的数据公司,但由于我们专注于达到一定规模的公司,大多数较新的公司尚未出现在此列表中。

每个类别的投资额都在增长

从各类别投资来看,最显著的趋势是AI/ML公司比以往任何时候都吸引了更多投资者的兴趣,主要集中在早期阶段。ELT和编排领域也是如此——主要由某中心和某公司的大额融资轮次驱动。查询和处理公司继续吸引大额资金,尽管这些公司往往处于后期阶段。

我们坚信,未来10年将是数据的十年,涵盖基础设施、应用以及介于两者之间的一切。因此,我们将继续看到破纪录的增长、融资和市值,我们将每年在这个列表中追踪。祝贺首届Data50的所有上榜公司!