七个盛行的开源数据控制工具
数字化时代,数据是曾经成为最贵重的资产之一。数据撑持着咱们的政府、企业以及各类组织的一切流程,并为决策以及智能化服务提供撑持。大数据有大用途,但是也或许暗藏着渺小的风险,特意是假设咱们对数据的状况不是很了解的时刻,咱们便不能够把握究竟存储了什么信息以及如何经常使用它,在一堆数据中能否存在渣滓数据或许或许被忘记的高品质数据,甚至能否存在数据安保疑问。
因此,咱们须要有效地控制数据。
什么是数据控制?
数据控制是一种控制框架,经过定义和实施组织范围内的数据控制政策、规范和流程,确保数据的准确性、分歧性、安保性和合规性。它触及数据的创立、存储、经常使用和销毁的整个生命周期,旨在最大化数据的价值,降落数据风险,并支持业务决策和运营的有效性。
数据控制关系的概念
在引见数据控制平台之前,咱们对一些数据控制关系的概念有所了解。
数据控制关系的概念名词涵盖了多个畛域,从数据控制、数据品质到数据隐衷和安保等。以下是一些经常出现的概念名词:
数据控制的组成有哪些?
从系统的角度看,数据控制有10个关键组成,用于满足组织在每个常识畛域的数据控制需求。
(1) 人
数据控制专业人员、数据控制员和其他关键业务和IT人员是数据控制方案的主干。他们建设和开发上班流程,以确保满足企业数据控制要求。
(2) 数据战略
数据控制团队在组织的企业数据战略的开发和实施路途图中起着至关关键的作用。数据战略是一个行动文档,它提供了企业对数据的上档次需求,并确保这些需求失掉满足。建设企业数据战略是组织数据控制之旅的关键一步。
(3) 数据流程
数据控制方案须要建设数据控制的关键数据流程。这些包括数据疑问跟踪或处置、数据品质监控、数据共享、数据因循跟踪、影响剖析、数据品质测试等。
(4) 数据政策
数据战略是一个或多个申明的初级汇合,这些申明陈说了对数据的希冀和预期结果,这些数据会影响和指点企业级别的数据习气。数据控制方案为数据控制建设数据控制战略。政策包括出站数据共享、恪违法规等。
(5) 规范和规定
数据规范提供了一个框架和方法,以确保遵守数据战略。数据规定指点或解放行为,以确保遵守数据规范,从而提供数据战略的合规性。
(6) 数据安保
数据安保触及包全数字数据(如数据库中的数据)免受授权和未授权用户的破坏性力气和不用要的操作。这些不受欢迎的用户优惠指的是特务优惠、网络攻打或数据暴露。
(7) 沟通
数据控制沟通包括与须要了解数据控制团队优惠的协会受众启动的一切书面、行动和电子交互。沟通方案包括一切沟通的目的、目的和工具,从一开局就应该是控制方案的一局部。该方案确定了如何向各利益攸关方和组织的其他人员引见控制和控制方面的应战和成功阅历。沟通方案突出正确的业务案例并展现其结果。
(8) 社会化
数据控制的社会化是任何控制方案中的关键优惠。数据控制社会化方案是一个协助将数据控制优惠集成到组织的战略、外部文明、档次结构和流程中的方案。该方案是该组织所独有的,由于它是依据其组织文明和行为规范量身定制的。
(9) 业务目的和KPI目的
建设业务目的和关键性能目的(KPI)来监控和权衡数据控制方案的总体业务影响,这关于方案的成功至关关键。目的和KPI必定是可测量的,可以随期间跟踪,并且每年都以相反的方式启动测量。
(10) 技术撑持
行动数据控制方案须要各种技术撑持,包括框架、工具等,用于使流程智能化。
数据控制的关键要素
从关键技术性能的角度看,数据控制的关键要素包括:
开源数据控制工具
在开源畛域有哪些比拟闻名的数据控制工具呢?
开发言语:TypeScript、Java、Python
OpenMetadata是一个一致的元数据平台,用于数据发现、数据可观察和数据控制,由中央元数据存储库、深化的列级因循和无缝的团队单干提供支持。OpenMetadata基于放开元数据规范和API,支持衔接到各种数据服务的衔接器,支持端到端元数据控制,让您可以自在监禁数据资产的价值。
OpenMetadata关键由四个组件组成:
总体架构如下图所示:
OpenMetadata的关键特点包括:
开发言语:Java、javaScript
Apache Atlas是一个数据控制开源框架,用于支持数据控制团队能够在整个组织中单干控制大数据资产和元数据。它为复杂的企业数据,提供了可裁减的数据模型和高度集成的控制处置方案。
他的优势包括:
当然缺陷也有一些,例如:
开发言语:Python、TypeScript
Amundsen是Lyft开发的数据发现和元数据引擎,它经过索引数据资源(表、仪表板、流等)来提高数据剖析师,数据迷信家和数据工程师在与数据打交道时的消费劲。它还可以基于经常使用形式(例如,高度查问的表比拟少查问的表更早出现)来驱动页面排名格调的搜查。有点相似谷歌搜查。
开发言语:Java、Python、TypeScript
DataHub是一个开源元数据控制平台,它最后由LinkedIn构建,以满足其现代数据堆栈始终变动的元数据需求。
DataHub支持第三代数据目录、数据发现、单干、控制和为现代数据栈构建的端到端可观察性。DataHub驳回模型优先的理念,专一于优化不同工具系统之间的互操作性。
下图是DataHub的架构:
DataHub的关键亮点有:
开发言语:Java、TypeScript
Magda是一个面向大型组织的开源联结数据目录平台。其目的是经过提供一个用于记载、跟踪、增强和应用从CSV文件到大型数据库的资产的繁多平台。
因此,关于那些须要处置少量较小的数据集的团队来说,这是一个特意适宜的产品。
Magda的优势包括:
Magda的缺陷有:
技术架构:
在技术架构方面,Magda是基于微服务体系构建的,这些微服务作为Docker容器散发。这样做是为了提供繁难的可裁减性。Magda可以经过经常使用任何技术作为Docker镜像来参与定制服务,并经过稳固的HTTP API将它们与系统的其他局部集成。经常使用Helm和Kubernetes启动编排象征着定制的Magda实例的性能可以以纯文本方式存储和跟踪,并且可以极速轻松地复制具有相反性能的实例。架构图如下:
开发言语:Java
Egeria是一个以企业为中心的工具,专一于跨组织的元数据控制。
因此,它关于须要高度智能化的集成处置方案的团队来说或许是一个很好的选用,例如跨平台元数据替换。
优势:
缺陷:
TrueDat是一个十分成熟的开源数据控制工具,可以协助客户成为数据驱动型的公司。TrueDat是由BlueTab(如今是IBM的一家公司)在了解了市场作为数据处置方案提供商的需求并找到了数据控制畛域的空白之后创立的。
其优势包括:
除此之外,TrueDat在报告方面特意弱小。它具有与Metadata的原生集成,为用户提供了极大的灵敏性,可以围绕其数据品质和经常使用状况提取和可视化见地。
但是TrueDat也有许多缺陷,例如:
虽然是一个开源名目,但TrueDat显著不足开源配套信息。特意是文档有点少,而且也没有消费部署关系的信息。
总结上方用一张矩阵表总结了这几个开源数据控制工具的关键性能。矩阵用Yes和No示意能否有提供关系性能,但是,实践上这些工具在这些性能的成功水平并不一样。
产品 |
数据血统 |
业务术语表 |
标签/分类 |
标签/分类流传 |
基于角色的访问控制(RBAC) |
基于属性的访问控制(ABAC) |
数据共享 |
OpenMetadata |