data catalog
data catalog数据目录是一个权威的数据来源,它使得数据生产者和数据消费者对公司的所有数据资产进行发现、管理、访问权限控制。
使用场景如下:
- Find relevant data. 当你想对一个新的金融服务进行客户满意度评估的时候,data catalog可以告诉你,你需要哪些相关数据。
- Trace, track, and trust data. data catalog可以告诉你这个数据是谁编辑的,数据是否是新的,数据来自哪里。
- 协作分享数据 data catalog可以方便使你与其他部门进行合作理解、分析、整理数据,并分享数据。
- 权限控制 强制规定谁有权访问哪些数据
modern data catalog
A modern data catalog is a metadata management system with advanced automation features that enable it to scale to handle massive volumes of data.
A data catalog is all about metadata management.
The benefits are clear to anyone who’s spent weeks or months scouring their company for a critical dataset. With a single source of truth for data, anyone can find what they need easily via a simple natural language query.
data catalog可以使得用户方便的查询到他们需要的数据。仅仅通过一个简单的自然语言的查询就可以做到,而且数据是权威的。
atlan vs datahub
DataHub, an open-source metadata platform, excels in data discovery, observability, and governance. It's designed for developers and data practitioners to manage complex data ecosystems efficiently.
Atlan, on the other hand, positions itself as a modern data workspace, integrating data catalogs, data lineage, and governance with a strong focus on collaboration and ease of use for teams.
- datahub是一个开源平台,擅长于数据发现、数据可观测性、数据治理。设计目的:方便数据开发者和数据从业者高效管理复杂的数据生态。
- atlan是一个现代的数据工作站,集成数据目录、数据血缘、数据治理。只要专注于团队间的协作和使用。
Key Differences:
- Data Discovery: DataHub provides powerful search capabilities and lineage visualization, while Atlan offers a more user-friendly interface with AI-powered search and automatic lineage.
- atlan有AI赋能的搜索能力,可以自然语言搜索
- Metadata Management: DataHub's model-first approach allows for a flexible and extensible metadata model, whereas Atlan provides a more guided experience with pre-defined models.
- Collaboration: Atlan emphasizes collaboration with features like glossaries, annotations, and project workspaces, while DataHub is catching up with its roadmap to include more collaborative features.
- atlan更强调团队协作
- Integration and Extensibility: DataHub's open-source nature allows for deeper integration and customization, while Atlan offers out-of-the-box integrations with popular data tools.
- atlan提供开箱即用的集成
openmetadata vs datahub
这两个产品都是开源的,在功能上也有很多重叠。都支持数据发现、数据观察、数据血缘、数据治理、数据质量管理。上面这些数据发现、数据观察、数据血缘、数据治理、数据质量都属于数据管理。
- 数据治理的目标是合规。数据管理的目的是发现数据价值。
- 组织架构方面的调整
- 规章制度的建设,尤其是数据战略
- 所谓数据质量,比如一个数据及其这个数据副本应该是一致的;再比如,你的产品实际用户是年轻女性,但是数据体现却是中老年女性,这就存在数据质量问题。
vs
- openmetadata是uber开源的
- datahub是linkedin开源的
- 两者都用到了mysql、es。datahub用到了neo4j图数据库,而openmetadata使用的是jsonSchema。
- 数据摄取
- datahub支持推、拉模式进行数据摄取
- openmetadata仅支持拉的模式
- datahub使用kafka
- openmetadata使用Apache Airflow(Apache Airflow 是一个开源的平台,用于编排和调度工作流。)