Data 在数据集成场景的通常 Fabric

2024-11-15

一、什么是> 1.集中式数仓面临的困境

在正式引见>从数据消费者的角度来看，他们每天会面临少量的剖析、取数需求，从前端提出的需求各种各样，甚至一个需求还会不时变动。从数据消费者的角度来看，比如剖析师、运营同窗，他们经常感觉需求难以失掉满足，或许要等待排期，或许是数据还没有等等。

再站在老板的视角，数仓跟物理环球的仓库相似，都是用来寄存物品的，只不过数仓存储的是数据，数据搬出来之后，还须要分门别类去保养，以便在要用的时刻能极速找到并拿出来。然而它跟物理仓库有一个很大的差异，那就是物理仓库是有进有出的，而数据仓库却只进不出，随着业务的极速增长，数据仓库也会急剧增长，但数据仓库能处置的疑问却不是成比例增长的，其业务价值岂但没有成比例参与，反而由于数仓规模的增大造成投入和保养老本成急剧参与，进而造成很少数仓树立有肯定期间的公司都急需数据控制。

其实数据控制实质就是经过人为手腕去处置数仓业务价值不能婚配的疑问，因此，站在老板视角来看，数仓的投入产出比是极低的。所以传统数仓有两个很重大的矛盾：第一个是消费者跟消费者供需的矛盾，第二个是数仓全体投入产出比的矛盾。

关于用户来讲，或许有些数据在数仓外面，有些数据在 MySQL 外面，有些数据甚至是一个文件，他会宿愿拿到这些数据就可以间接去剖析，而不是还得先把这个数据入仓，再转换一下，最后才干用。这就是传统数仓与实践需求之间的 GAP。

总结来讲，传统集中式数仓面临着三个方面的应战：第一个方面是老本；第二个方面是合规，由于大家对数据隐衷方面的要求越来越高，企业、政府以及法律法规上也越来越严厉；第三个方面是效率。

2.Data Fabric，新一代数据架构的思维

接上去看一下>

Data Fabric究竟是什么？Data Fabric 中文翻译成数据网格。而数据的虚构化是成功数据网格化很关键的一项技术。当然> 3.数据虚构化让数据棘手可得、按需计算

咱们将数据虚构化定义为三层。第一层是衔接层，最关键的作用是为各种各样的异构存储介质，不同的物理层定义一个一致的访问接入模型层，将异构数据的访问规范化。第二层是真正做数据处置加工的中央，叫兼并层。第三层是消费层，将加工后的数据提供应消费端经常使用，接上去会借助案例详细开展各层的作用。

二、数据虚构化在数据集成场景落地通常

前文中引见了>

这是一个券商的案例。在用咱们的打算之前，他们是没有数仓的，报表是经过写 Java 程序去成功的。客户经过调研发现一切的同行都在经常使用 Hadoop 这一套大数据体系，去构建一套完整的数据仓库，但对他们来讲这种打算投入老本太多，而且打算也太重了，因此他们急需愈加轻量化的数据处置打算。

这个券商客户那边有很多业务库，并且这些业务库积淀了很多年，有些放在 MySQL 外面，有些放在 Oracle 外面，也有些在 SQL Server，甚至还有一些网上爬上去的数据。他们宿愿经过这些数据会集在一同来成功企业的消息化大屏，包括资产控制、数据控制月报、数据剖析等等，为控制层及各个业务部门明晰地展现企业关键业务运营状况。

咱们提供的处置打算是，首先这些数据源经过虚构化逻辑层衔接，这一层映射成最原始的 PDS(Physical> 其中有两个比拟关键的战略。

第一个战略是客户宿愿能保管数仓的性能。首先，保管数仓数据的历史性，所以咱们为他们构建的第一个战略就是在 DWD 明细这一层，一致依照天去保管历史快照，与传统数仓一样，只不过是基于虚构化技术去做，引擎会在这一层一致构建物理作业。

第二个战略是 DWD 之上的这一层，按需去做物理作业的构建。

有了这两个战略之后，经过咱们的战略引擎去生成真正的作业。当用户查问视图或虚构表时，虚构化引擎会依据用户的查问 SQL 路由到真正的物理数据上去做查问（底层会基于不同物理作业发生的数据做关联和兼并）。

经过上述打算，发现没有驳回传统的数据体系，也能把经常出现、典型的用户场景成功出来。客户连到逻辑数据平台外面的库有一百多个，PDS 层虚构映射的表有两万多张。但实践上成功所无关注的看板、报表，真正用到的表还不到 1%。所以有少量的表对这些运营报表是没有用途的。实践的物理作业也不多，不超越 100 个，撑持其一百多个外围目的。

假设驳回传统数仓的打算，由于其数据散落在各个业务库，假设把两万多张表都同步上来，而且是在数仓外面去写 ODS 的话，那么老本和代价是齐全不一样的。而咱们的打算在以下三个方面带来了清楚的优化：

上图中展现了两种典型的数据虚构化运行架构，实用于不同的场景。

前面的券商案例中，用的是典型的单层虚构化架构，经过一个虚构化层，把公司一切源的数据衔接在一同。

多层虚构化架构，更多用于个人性公司，或许分地区的公司。由于各种各样的要素（比如权限、安保、合规、数据归属和控制权等等），假设企业不宿愿这些数据从各个地区或许分公司物理拷贝出来，假设下层还要经常使用这些数据，那么多层虚构化十分适宜去处置这类疑问。

三、数据虚构化同传统打算的差异

接上去看一下虚构化打算与传统打算的差异。

数据虚构化并不是突然冒出来的一个概念，而是教训了一系列的开展环节。早期的数据仓库，是 ETL 的形式，随着各种非结构化数据的发生，缓缓演化成了数据湖的处置打算。数据湖中最大的变动是把 transform 这个阶段放到了最终经常使用数据的时刻去口头，也就是变成了 ELT。然而不论是数据仓库还是数据湖，都是集中化的物理数据存储打算。而逻辑数仓是基于虚构化技术的数据处置打算。在逻辑数仓外面，更强调让用户只聚焦在 transform，而不须要关注 E 和 L。

经过上图中的对比，可以看到逻辑数仓与传统数仓的差异。首先逻辑数仓齐全缩减掉了数据抽取环节，它只是一个逻辑映射，相当于把一切库连的元数据爬出去，数据就可用了。第二个差异是在消费端，在逻辑数仓中不须要把数据导到 OLAP 引擎里去，间接就能给 BI、报表或其它工具用。E 和 L 这两层去掉之后，用户可以将重心放在两边 transform 这一层，专一于处置数据、加工数据。

真正做到这个技术可用，有两个关键点。第一个是智能化生成 ETL 作业。其实让用户聚焦在 transform 外面，经过虚构化的技术去成功他的需求，不代表没有 ETL 作业，ETL 还是在的，只不过这个环节智能化了。第二个是由于用户不会感知到物理作业，所以当有作业产动物理数据时，这些查问的改写、构建，都由虚构化引擎成功了，对用户是透明的。

大家或许会有两个不懂，一是这个虚构化打算与传统的 Presto 打算有什么差异，二是这里的 ETL job，是不是相似于物化视图，接上去解答一下这两个疑问。

首先绝大局部用 Presto 的场景都是放在ETL的最末端，当然这跟 Presto 的架构也有相关。由于 Presto 就是一个 MPP 引擎，它自身是面向 OLAP 查问的，只不过支持跨源查问的才干。假构想加长到数据仓库这一层的话，就象征着须要支持大规模数据稳固且低老本的构建才干，而这是 Presto 这类纯 OLAP 引擎架构所支持不了的，由于 OLAP 引擎的设计就是谋求最大化的应用一切计算和内存资源将每个查问的性能拉到极致。所以数据虚构化不等于 Presto，由于它可以处置一局部相似于虚构化的疑问，然而处置不了传统数仓的困境。Aloudata 的数据虚构化是可以处置全场景的。最关键的局部在于 RP 技术的打破。

RP 与物化视图的差异在哪里呢？举个方便的例子，传统的物化视图，是为了减速一些大的 SQL 而降生的，其实更多的是一种减速缓存，也就象征着数据丢掉了是没相关的。然而在 RP 这一层，由于 RP 是对标 ETL 研发的作业，假设作业有疑问，或许是数据有疑问，查问不会绕过它。所以 RP 的定位与物化视图有着很大的不同，也正由于此，两者在技术设计打算上也存在很大的差异。

首先，RP 会支持多层的构建和调度，与真实的物理上生成的 ETL 作业没有差异，也会有强弱依赖，也会有分区对齐，也会有跨周期依赖等等。只不过这些是智能生成的，而不是人工去性能的。同时，RP 也支持大规模数据量构建，也支持智能推导是全量构建、增量构建，还是分区构建。

另外，在物化视图中，数据一旦构建出错就失效了，数据就丢了。但在 RP 外面是不会的，由于数据有多个版本，这是很关键的一个才干。

RP 同物化视图一样也会基于算子成功 SPJG 的查问改写才干，但同时它也极大增强了物化改写才干。在传统物化改写中，关于 SQL 的复杂性是有肯定限度的。例如：在 VDS 多层嵌套的场景，多层视图开展后会生成一个极端庞大的算子树，传统物化改写算法在这类规模的算子树上改写，性能和准确性都存在极大的限度。

最后，RP 技术依据用户的查问历史以及资产的相关构建了智能减速打算。并且能够智能回收。在数据仓库外面，作业越来越多，很多没有用的作业无人担任下线，肯定要去人肉控制，以降落计算、存储老本。在虚构化之后，由于消费端对作业能否在用是有感知的，所以能做到智能回收。这也是相关于传统数据控制一个很关键的差异。

逻辑数仓与传统数仓的区别可以总结为以下几个维度：

既然逻辑数仓有这么多好处，那么有了逻辑数仓，传统数仓就不再须要了吗？显然不是。由于传统数仓经过多年的开展，有其自己的通常、技术体系、人才的积淀。传统数仓最大的疑问是无法顺应非稳固的、暂时性的或许翻新性的需求，这些业务需求有个独特的诉求就是取数、用数的矫捷化，这是传统数仓架构自然无法具有的。所以逻辑数仓更像是传统数仓的补充，经过传统数仓加上逻辑数仓，可以满足更多的场景。

在本次分享中讲到了很多概念，包括>

首先>

本文的两个关键观念为：

以上就是本次分享的内容，谢谢大家。

Q1：怎样保障在查问时不影响业务库的稳固或业务系统的反经常常使用。

A1：这是被问到最多的一个疑问。回忆文中的案例，其真实 DWD 这一层做了一个物理作业的映射，因此关于一切 DWD 上的这些查问，是不会打到业务库内存的。有些访问假设是间接查问，比如说绕过了这一层，间接查问 PDS 这一层，查问引擎有做一局部的限流控制。依据不同的业务库的容量，咱们可以针对数据源做一些容量的限流。

Q2：RP 自身是什么？能否解释一下？

A2：RP 全称是相关投影。以前是 ETL 自己去写物理作业，写 SQL，最后把数据插到一张物理表中。如今咱们把这个环节简化成了 ETL 同窗去写真正生成数据的逻辑，不用管这个逻辑是不是插到一张物理表中。当定义了很多视图之后，咱们发现比如说它这两个视图合在一同去生成一个物理作业更高效的状况下，就会把它的代码合在一同去生成真正的物理作业。所以 RP 与视图之间的差异就是用户定义了视图之后，RP 其实是视图底层物理作业的一个映射。

Q3：采集的数据时效性如何？

A3：采集的实时性取决于不同的场景。有些场景是有实时采集需求的，而有些场景虚构化之后，数据的时效性能够失掉优化。当然这种时效性的优化取决于几个方面的才干。第一个方面是，假设查问下推才干足够强，用户原始的 SQL，原始的那个库，能撑持这样的查问的话，或许很多中央就不会去采集上来，而是尽量在源端库启动计算，这是一个打算。另外一个是，有些采集，假设源端库不准许访问，或许性能很差的状况下，可以在 PDS 层建 RP，也可以在 DWD 层建 RP。进入这个 RP 之后，跑的作业就分两层，一层是定时去跑，或许说依据调度系统的调度周期去跑，比如说可以调度到小时级，这是一类。另外一类是假设在 PDS 层建，这种减速作业的采集是可以更实时化的。比如经过定义 bin log 的形式生成 RP。RP 就是一个订阅 bin log 的实时采集作业了。

Q4：Data Fabric 的外围是树立一套映射相关吗？

数据网格数仓数据虚构化

<<蚂蚁目的系统的设计与通常

天穹数仓自治才干在大模型时代的新通常>>