MaxCompute湖仓一体方案新才干

2024-11-15

一、增量降级和处置架构

1、设计增量降级架构的背景

数据业务场景日趋复杂，关于时效性要求低的繁多全量数据处置场景，MaxCompute可以较好地满足需求。时效性要求很高的秒级实时数据处置或许流处置，须要经常使用实时系统、流系统来满足需求。

但关于大部份业务场景，通常并不要求秒级数据降级可见，更多的是分钟级或许小时级的增量数据处置场景，同时也会有海量数据的批处置场景。

关于此类业务场景，经常使用繁多引擎或联邦多引擎都会存在一些劣势。如图所示，假设经常使用繁多的 MaxCompute 离线批量处置链路，分钟级的数据和全量数据做处置和存储，会存在冗余的计算和存储老本，时效性也不能较好地失掉满足。但假设单纯经常使用实时系统，资源消耗老本比拟高，性价比拟低，在处置大规模批处置时稳固性也无余。

因此，普通综合处置方案会驳回Lambda架构去允许大数据的复杂业务，全量批处置经常使用 MaxCompute 链路，时效性要求高的经常使用增量处置实时链路。但该架构也存在大家所熟知的疑问，如图中所示。

2、MaxCompute近实时增量降级和处置一体化业务架构通常

如图所示，关于各种数据源，咱们提供丰盛的数据源接入工具，来允许近实时的增量导入和离线批量数据的导入，外部经常使用一致的数据存储和优化服务治理数据，一致的计算引擎允许近实时增量处置链路和大规模离线批处置的全体链路，一致的元数据服务撑持事务和文件的元数据治理。该一体化全体架构长处清楚，可处置Lambda的一系列疑问，如节俭了冗余的数据存储老本以及不同系统间的数据迁徙老本，消弭了多套系统处置差异造成的数据不分歧疑问，相关于独自经常使用实时/流处置的模式，性价比更高；并且既可以满足增量处置链路的时效性，也能满足批处置的高效性。

此外，该套架构还提供了upsert、timetravel等一系列适用的性能，裁减全体的业务场景，节俭用户的资源老本，并优化用户体验。

3、MaxCompute近实时增量降级和处置全体技术架构

如图所示为MaxCompute近实时增量降级和处置的全体技术架构，关键分为五个模块启动变革，包括数据接入、计算引擎、数据优化服务，元数据治理，数据文件组织层；其它局部可间接复用 MaxCompute 已有的技术架构和成功。

为了允许增量降级，咱们设计了一种新的表类型-Transactional Table 2.0(简称TT2)。关于建表操作只需在普通表基础上额外设置主键primary key (PK)，以及表属性 Transactional 为 true 即可，无需其余额外性能。

其中，PK用于允许 upsert性能， PK值相反的多行记载最终会 merge兼并成一行，以满足主键惟一性的解放；Transactional表属性示意允许 ACID属性及事务机制。

如图所示，TT2允许多种数据文件格局，关键允许Base File和Delta File。Delta File示意每次事务写入的增量数据文件，会坚持每一行数据的两边形态，用于满足近实时的增量查问需求；Base File是由Delta File启动Compaction兼并生成，不会保管两边形态，驳回了列式紧缩存储的格局，用户允许高效的全量数据查问场景。

为了进一步优化读写效率，TT2允许依照Bucket Index 对数据启动分桶存储，bucket 数量可经过性能表属性write.bucket.num指定；分桶后，大局部数据操作如数据写入、重排、优化等，可以依照bucket粒度启动并发处置，假设对bucket数据列查问过滤，可启动Bucket级别裁剪优化，优化查问的效率。

上方将会引见如何将数据写入TT2表，关键分为批量写入和近实时写入；这里先形容如何设计高并发的近实时增量写入场景。

咱们定制开发了 Flink Connector，以及Dataworks 数据集成及其余工具，都可以成功数据的增量写入，这些工具外部会调用MaxCompute的Tunnel通道服务提供的客户端SDK，数据便可以以分钟级并发写入存储。

数据写入接口，目前仅允许upsert和delete两种格局，未来会启动裁减；upsert 蕴含 insert/update 两种隐含语义，如数据行不存在就代表 insert，如已存在就代表 update。commit 接口代表原子提交这段期间写入的数据，如前往成功，则写入数据查问可见；如前往失败，则数据无法见，数据须要重写或重试。该操作满足Read Commit隔离级别。

上方将引见批量写入。批量导入关键经过 SQL 启动操作。为了繁难用户操作，咱们成功了整套的DML语法。SQL 引擎内核模块包括 Compiler、Optimizer、Runtime 等都做了少量变革开发来允许新架构的性能，如针对 pk 列的去重操作，runtime 结构 upsert 格局数据的写入，以及并发写入等等。此处还触及到DML操作环节中，Meta服务须要完整的事务机制来保障读写隔离、事务抵触检测等操作。

由于TT2事务表须要允许分钟级近实时增量数据导入，有或许会发生少量小文件，造成存储访问压力大、数据读写 IO 效率低、剖析效率高等疑问。因此，咱们开发了Clustering服务来处置小文件兼并的疑问，该服务由之前提到的Storage Service来口头。

由左图所示可以了解Clustering 服务的全体操作环节。在t1到t9的期间段，可见发生了少量的delta文件，Clustering会周期性地剖析数据文件状况，假设满足触发条件，就会以Bucket为粒度，并发地口头兼并操作，为了满足不同业务场景的需求，兼并的战略比拟丰盛，比如依据文件大小、数量、时序相关的多个维度，并依照不同档次启动兼并，此外，关于超越必定大小的文件，做了一些优化，不会对其启动兼并。

TT2还会写入upsert和delete格局的数据，或许会形成两边形态的冗余记载比拟多，计算老本高且处置效率低下，因此咱们设计了Compaction操作，对一切记载启动merge兼并，消弭上述两边形态。Compaction操作由Storage Service担任口头，即允许手动触发，也可以依照期间频率智能触发。

联合上图可大略了解 Compaction 服务的全体操作流程。t1 到 t3 期间段，一些 delta files 写入出去，触发 compaction 操作，雷同会以 bucket 粒度并发口头，把一切的 delta files 启动 merge，而后生成新的 base file。之后 t4 和 t6 期间段，又写入了一批新的 delta files，再触发 compaction 操作，会把存在的 base file 和新增的 delta files 一同做 merge 操作，重重生成一个新的 base file。该环节会迭代启动，因此base文件可以成功减速全量快照查问的目的。

此处Timetravel 查问，关键用来查问历史版本的数据，关键用于有数据历史形态回溯需求的业务场景，或数据出错时复原历史形态数据启动数据校验等。

经过一个繁难的case启动解说，例如上方创立了一张表，蕴含一些pk 列和val 列。左边图展现了数据变动环节，在 t2 和 t4 时辰区分口头了compaction操作，生成了两个base文件: b1和b2。

在t1时辰，只需读取 delta file (d1) 启动输入；假设用户查问 t2 时辰，过后经过Compaction生成了b1这个base文件，只需读取 base文件并输入对应记载即可。base文件会对d1和d2两个文件兼并，生成了三条记载，消弭了2a这个两边记载。如查问 t3 时辰，就会蕴含 base file ( b1) 加上 delta file (d3) 启动Merge兼并输入，后续时辰的查问环节同上，不再赘述。

因此可以看出，Timetravel会找到要查问的历史版本前最新的base文件，以及后续的delta文件，一同启动Merge输入。关于base文件关键用于提高查问效率，用户可以依据自己的业务场景选用适宜的频率启动Compaction操作。由于Compaction操作自身也会占用必定的存储和计算，因此不能自觉频繁地口头。

上方的表格是一个增量查问的场景，关键用于业务的近实时增量处置链路。查问的期间范围是一个左开右闭的区间，即 begin 是一个开区间，必定大于它，end 是一个闭区间。

如 begin 是 t1-1，end 是 t1，只读取 t1 期间段对应的 delta file (d1) 启动输入，假设 end 是 t2，会读取两个 delta files (d1 和 d2)；假设 begin 是 t1，end 是 t5，即查问的期间范围为 [t2, t5]，会查问一切的delta文件，即d2,d3,d4,d5，启动兼并输入。这便是增量查问和Timetravel查问的区别。

此外，增量查问对一些专门的场景启动优化，例如Clustering兼并小文件，从语义上对已有数据记载启动兼并，因此增量查问时不会作为新增的数据查问进去。

作为一个新设计的架构，MaxCompute 会尽量去笼罩HUDI / Iceberg + Spark/Presto全体数据湖处置方案的业务场景，有助于有相似业务需求的用户启动数据和业务链路迁徙。此外，MaxCompute 离线近实时增量处置一体化架构还具有一些共同的亮点：

经常使用过SQL的人基本都对物化视图有大略了解，其实就是将逻辑视图的结果物化上去，实质上就是存储数据的物理表。其作用关键是把耗时操作的计算结果保管上去，防止重复计算，从而到达全体的查问减速的目的。MaxCompute的物化视图也阅历了一系列的演进环节。一开局咱们就允许了比拟丰盛的SQL语法性能，比如聚簇，分区等。

关于分区物化视图，相似于分区表，数据是经过火区的粒度启动存储和治理的。在实践场景中，物化视图的分区和源表的分区不必定坚持分歧，例如源表参与新的分区，物化视图或许还没来得及降级，或许只降级局部分区的场景。假设用户要查问指定的分区，但物化视图只存了局部历史分区数据，MaxCompute允许了分区穿透的性能来优化此场景的查问。关于物化视图存在的分区，可以从物化视图中查问，关于物化视图不存在的分区，间接从源表中穿透读取。这样就可以应用物化视图的结果，还能保障结果和源表分歧。

此外最广泛的场景就是计算逻辑和物化视图表白式计算逻辑相似，语义的输入结果是物化视图的子集。为了充沛应用好物化视图的结果，允许在物化视图的数据集上，对数据进一步加工，取得用户查问的结果。例如查找值大于10的数据，在改写后便可以间接从物化视图中间接参与一个过滤条件＞10，便可以搜查出大于10的结果，防止了查问源表全量数据的环节，查问改写性能可有效优化查问性能，降落资源消耗。关于图中展现的查问改写例子比拟繁难，MaxCompute已允许十分丰盛的复杂操作，比如aggregate、join等，只需表白式等效，或查问的结果集是物化视图的子集，能够转换成对应的表白式，都可以启动改写。

由于源表和物化视图的数据存储在不同中央。当源表出现降级，但物化视图没有降级时，SQL查问无法应用物化视图的结果。须要全体回退，查问源表。为了更好地提高查问效率，咱们在语法上允许定时触发操作，在必定的期间范围内保障物化视图和源表数据基本坚持分歧。

2、物化视图智能介绍机制

为了经常使用物化视图，用户须要十分了解物化视图的概念，运转原理，以及业务状况，才干到达较好的经常使用成果。但很多场景中，公司业务较为复杂，团体无法从全局了解公司的业务状况，因此无法从查问最优的角度来创立高效的物化视图。此外，用户关于创立物化视图前后的资源消耗状况，也难以评价。

为了放大物化视图的经常使用场景和推行，降落全体物化视图的经常使用门槛，MaxCompute引擎允许智能化地剖析用户业务历史作业的运转状况，依据正当的战略挑选出成果比拟好的物化视图，上图为繁难的智能物化视图机制的运转原理。首先，引擎会对一切作业启动剖析，抽取出一切合乎要求的子表白式，实践战略上会尽或许选用蕴含aggregate和join的子表白式做物化视图，最终查问优化的全体成果会更好。

其次，会对一切合乎要求的子表白式启动格局一致的归一化处置。例如将一切算子的顺序启动排布整顿等，随后会对归一化合乎要求的子表白式启动兼并，生成一些新的公共表白式，从而裁减运行场景。

最后，对一切挑选生成的表白式的口头成果启动评价，给出哪些表白式适宜作为物化视图的候选。此处须要失掉物化视图计算时须要的CPU、内存、存储等消息，从而做出相对准确的对比评价。

最后，会依据公共表白式的经常使用频率和口头占用的资源成果，全体评价物化视图优化运行的成果，按顺序展现给一切用户候选的公共表白式列表，因此即使是小白用户，也可以无脑的选用介绍排名靠前的物化视图启动经常使用和验证，可大大缩小资源消耗，同时可以提高用户的业务性能。

该性能在MaxCompute公共云曾经上线，成果十分好，估量可以节俭14%的CU资源。

对比Spark到3.0版本才允许Adaptive口头框架，MaxCompute的SQL引擎一开局的定位就是多档次和多维度的灵活Adaptive口头计算优化。

以图中所述的口头聚合聚合操作的SQL为例，SQL Optimizer模块会依据Compiler解析的SQL语法树，依据静态的Table或许分区级别的Stats消息联合RBO/CBO/HBO计算进口头代价较低的口头Plan，提交给Job Master口头，调度Runtime Worker启动数据计算处置。Runtime外部也会依据抢先Worker的输入数据Stats启动Plan优化调整，此外，运转中的算子会依据实时流入的数据特色，灵活切换最适宜的算法启动计算。

同时，Job Master也会始终搜集operator、work级别统计的数据Stats，回传给Job Master做一些汇总和剖析，进一步做Stage级别的灵活优化调整，比如并发度的调整等。

此外，在运转时，Job Master还会把Stage级别的数据Stats回传给Optimizer，它会依据这些实时Stats对还未口头的Plan从新启动优化，而后把新的Job Plan再次提交给Job Master继续口头。

由上述流程可知，MaxCompute的SQL引擎可以自顺应地依据多维度的Stats口头多档次的Adaptive优化，这可以充散施展和协调各个模块的才干。前面将会繁难引见下对每个档次的优化通常。

假设用户口头SQL: select * from t1 join t2 where t1.a=t2.b，上图展现一种Plan级别DAG的灵活调整示例。关于Join的散布式成功，关键分为Shuffle Join和Map Join两种成功，Shuffle Join如左侧的Plan A所示，左右两张表都要启动一次性Shuffle操作，关键用于左右表都很大的场景。关于右侧Plan B，会把右表的一切记载挪到左表的一切map实例中，防止了左表的Shuffle操作，适用于左右表一个很大一个很小的场景。

但优化器在口头的环节中，无法感知右表的大小，所以无法事前选择驳回哪种join成功。针对这种场景，咱们同时生成plan A和plan B两种方案，并把它们同时传给Job Master，Job Master会先口头右表，失掉到右表的数据总size后，再选择驳回plan A还是plan B，在Plan B失效的场景下，相对Plan A通常可极小节俭大表的shuffle开支，优化几倍的性能。

上方引见Stage级别的灵活调整的两个场景。一个典型的场景就是Stage并发度的调整。当抢先Stage成功之后，会依照预先设置的并发度计算出下游实例应该处置的数据量，如图所示，便可以灵活调整并发数。size较小的实例可以启动兼并，size较大的实例可以启动拆分，平均散布每个新实例的处置量，从而防止长尾和资源碰撞，使全体资源经常使用价值最大化。

另一个是Shuffle Join Worker灵活调整的场景。在运转的环节中，假设发现有些表的数据实例出现重大歪斜，大略率会出现长尾疑问，引擎会灵活将其拆分为n个实例，比如图中左表数据量为60这个实例，会被拆分红3个数据量20的实例并发口头，另外一个实例会把数据broadcast散发到左表的三个实例中并发启动Join操作，从而防止长尾，缩短全体运转期间。

上方将引见Worker内DAG口头的灵活调整，如图所示是一个Shuffle Join的实例。在开局运转时，可以依据从抢先Worker失掉到左右表实例的size来选择走Hash Join还是Merge Join，假设合乎Hash Join的DAG口头，就可以防止大表排序时出现少量的Spill落盘的操作，节俭少量的IO资源，从而可以优化运转速度。

最后，worker外部的详细某个算子其实也可以灵活口头。运转时会依据实时数据特色来Adaptive选用不同的算法启动口头。关于Partial Hash Aggregator，可以依据实时的聚合成果选择能否继续启动聚合；关于排序可以先拿一些数据样本做一下预排序，依据排序成果选择驳回哪种排序处置后续的数据；紧缩方面，也可以依据紧缩成果选择能否紧缩等。

物化视图和物理表有什么区别？

物化视图实质上可以了解为也是一张物理表，只不过多了一个源表的关联消息，源表降级时，物化视图须要同步降级。另外，物化视图允许智能介绍，也可用于估量算的cache，用户无需感知物化视图存在，在查问SQL时，假设对局部计算做了cache，可以间接从cache中读取数据，来防止重复耗时的计算，在详细存储上二者并没有太大的区别。

物化视图有没有设置过时期间的思考？

物化视图会有一个生命周期，超越生命周期，物化视图也会被删除。

Hash Join和Merge Join有什么优劣，实践场景应该如何选用？

这其实是散布式中的一个典型场景，关于Hash Join在详细成功上其实分两种，一种是咱们说的Map Join，Map Join会把小表所有广播到大表侧的每一个实例上，这样大表侧就无需做数据散布，可以间接从源表中读出一局部数据，跟broadcast上来的小表做一个Hash join启动输入即可，这样可以防止大表侧的shuffle数据重排操作。

Hash Join还有另外一种场景，也就是Shuffle Join，就是大表和小表同时做shuffle。在每个详细实例上，数据可以选用走Hash Join，还是走Merge Join，二者是存在算法上的不同。Hash Join是选用一个小表构建Hash表，大表会间接经过lookup启动输入，不触及任何排序操作，只需内存中能放下小表即可，效率比拟高。关于Merge Join，左右两张表都比拟大的场景，无法从内存中放下一个Hash表，可以对左右表的数据启动排序，排序完的数据经过有序的join就无需经过Hash模式，而是可以在内存中经过流式的模式去判别两个group能否为同一个key即可。

此外，还有一种场景，就是左右两边的数据原本就是有序的，比如一些Cluster表的数据。这样可以间接运行Merge Join，成果也会更高。所以实质上一是跟左右表的大小相关，另外也跟算法的效率相关。

湖仓一体 MaxCompute

<<Paimon Apache 实时湖仓存储底座

阿里巴巴数据模型设计与构建通常>>