Data50:全球顶尖50家数据初创公司
“大数据”概念诞生十多年后,数据仍然是最重要且增长迅猛的创新驱动力之一,贯穿大型企业和新兴初创公司。从为业务运营提供基础脉搏检查,到通过机器学习智能自动化日常任务,数据已成为各类规模组织决策的中枢神经系统。此外,数据的使用范围已远超数据科学家、数据分析师和数据工程师——如今人人都是数据生产者和消费者。
对数据日益关注的结果是:数据管理业务已成为基础设施领域增长最快的领域之一,预计2021年市场规模超过700亿美元,占企业基础设施总支出的五分之一以上。这个市场形成的妙处在于,它融合了软件工程、分析和人工智能领域,同时乘着云计算的浪潮。(关于这一巨大趋势背后的架构演变和驱动力的更多信息,请参阅《现代数据基础设施的新兴架构》一文,该文已于2022年更新。)
数据行业的增长也催生了过去几年中最激动人心、最具影响力的企业软件公司。Snowflake、Confluent 等新近上市的巨头已经改变了数千家企业的运营方式和数百万产品的构建方式。然而,大多数人不太熟悉的是那些推动者和撼动者——下一代的品类定义公司。
2021年是数据公司创纪录的一年,它们获得了数百亿美元的风险投资,2022年势头依然强劲。为了帮助大家从纷繁信息中理清头绪,我们编制了首届 Data50 榜单。这些是数据领域最激动人心的类别中的风向标公司。这50家公司总估值超过1000亿美元,累计筹集了约145亿美元的总资本,其中20家在2021年已达到独角兽地位。
话不多说,我们荣幸地推出 2022年 Data50 榜单。
Data50 榜单
榜单中的公司按类别划分为:
- 查询与处理 (Query and Processing)
- AI/ML (人工智能/机器学习)
- BI 与 Notebooks (商业智能与交互式笔记本)
- 客户数据分析 (Customer Data Analytics)
- 数据治理与安全 (Data Governance & Security)
- 数据可观测性 (Data Observability)
- ELT 与编排 (ELT & Orchestration)
方法论
Data50 榜单中的公司均成立于2008年之后,在过去两年内获得了新的融资,且员工数量年增长率至少为30%。其产品是为各行业的数据或数据应用团队服务的横向技术。
排名基于最新估值、公司规模、过去两年员工增长、运营年限以及当前收入规模等综合因素。员工数据来源于领英(某社交招聘平台)的公开数据。融资数据来源于 Pitchbook 和 Crunchbase(某机构数据库)的公开数据,数据截止至2022年3月22日。
需要说明的是,本榜单不包括 CockroachDB、PlanetScale 和 Yugabyte 等事务型数据库公司,因为这些技术的数据使用本质上是事务性的,而非分析性的。
分类详解
- 查询与处理技术:是访问、聚合和计算数据的核心引擎。涉及两类主要技术:批处理(例如 Databricks、Starburst)和实时处理(例如 ClickHouse、Imply)。受实时应用需求增长驱动,后者在过去几年获得更多关注。
- AI/ML:包括应用算法建模和机器学习处理大规模数据的软件。该领域正日趋成熟并蓬勃发展,上榜公司数量众多。部分参与者专注于特定数据类型(如 Rasa 和 Hugging Face 专注于自然语言),其他则专注于不同领域,如 AI 产品化(如 Scale、Tecton、Weights & Biases)或作为运行 AI 工作负载的“计算层”(如 Anyscale)。
- ELT 与编排:实现数据移动。这是保证数据准确、准时到达目的地的传输层。该类别由传统 ETL 供应商演变而来。新一代参与者大多是云原生(如 Fivetran、dbt)、开发者友好(如 Astronomer、Prefect),并能处理跨不同数据环境的更复杂依赖关系。
- 数据治理与安全:随着数据栈日益复杂及更多利益相关者参与,正成为关键关注点。尤其在高度监管行业,需要治理工具来保护数据并确保整个数据生命周期的合规性(如 OneTrust、Collibra)。此类别相对较新,主要为受监管监督的大型企业服务。
- 客户数据分析:传统上由营销团队负责。但由于其重要性增加,数据团队现在更多地参与将客户数据与中央数据平台集成。该类别专注于捕获客户数据(如 Rudderstack、ActionIQ)或将这些数据运用于一线业务用例(如 Census、Hightouch)。
- BI 与 Notebooks:涵盖数据消费层。尽管这是一个成熟的类别,但新参与者如 Preset 或 Metabase 采用开源优先方法,吸引技术数据工程师以及商业智能团队。数据的快速变化特性也增加了对迭代式和交互式笔记本(如 Hex)和自动洞察生成(如 Sisu)的需求。
- 数据可观测性:借鉴软件工程堆栈的最佳实践。随着数据堆栈对上下游工具的依赖日益增强,数据准确性产生更广泛影响,可观测性成为提供跨数据流监控和诊断能力的最新类别。
资本与地域分布
- 资本分布:查询与处理类公司仅占 Data50 公司数量的五分之一,但获得的资本投入惊人,接近所有融资总额的50%。(即使剔除某机构某轮巨额融资,该类仍占总融资37%,是下一类的两倍多。)
- 公司数量:AI/ML 是公司数量最多的类别,主要因为该领域仍在演变,需要一系列新工具来训练、度量和生产化模型。
- 地域分布:50家公司中,47家(94%)位于某国,3家为国际公司。其中33家位于某湾地区,9家位于某国东海岸走廊,2家位于某城,1家位于某市,1家位于某市。这种分布很大程度上受历史数据生态所在地区的影响。然而,随着数据工程人才和对数据工具需求几乎遍及各大洲,全球范围内涌现出更多数据公司。
- 成立年份:大多数 Data50 公司成立于2014年之后,在2019年左右达到峰值,主要受 AI/ML 工具爆炸式增长驱动。2019年后成立了更多数据公司,但因本榜单关注达到一定规模的公司,多数较新的公司尚未入榜。
- 投资增长:每个类别的投资额都在增长。最显著的趋势是 AI/ML 公司比以往任何时候都更受投资者关注,主要集中在早期阶段。ELT 和编排类也是如此,主要由某机构和某公司的巨额融资轮驱动。查询和处理类公司继续吸引大量资金,但往往处于较后期阶段。
我们坚信,未来10年将是数据的十年,涵盖基础设施、应用以及介于两者之间的一切。因此,我们将继续见证破纪录的增长、融资和市值,并在年度榜单中追踪这些变化。祝贺首届 Data50 榜单的所有上榜公司!FINISHED