Hadoop 超燃之路

1 Hadoop 简介

1.1 Hadoop 由来

数据容量

大数据时代数据量超级大,数据具备如下个性:

以前的存储手腕跟剖析方法现内行不通了!Hadoop 就是用来处置海量数据的 存储 跟海量数据的 剖析计算 疑问的,开创人 Doug Cutting 在创立Hadoop 时关键思维源头是 Google 三辆马车

如今说的 Hadoop 通常指的是 Hadoop 生态圈 这样一个狭义概念,如下:

大数据常识体系

1.2 Hadoop 特点

1.2.1 Hadoop 特点

高可用

Hadoop 底层对同一个数据保养这多个复本,即使Hadoop某个计算元素或许存储出现疑问,也不会造成数据的失落。

高裁减

在集群之间调配义务数据,可以繁难的裁减跟删除多个节点,比如美团节点就在3K~5k 个节点

高效性

在MapReduce的思维下 Hadoop是并行上班的,以放慢义务的处置速度

高容错性

假设一个子义务速渡过慢或许义务失败 Hadoop会有照应战略会智能重试跟义务调配。

1.2.2 Hadoop 架构设计

Hadoop 的 1.x 跟 2.x 区别挺大,2.x 关键是将1.x MapReduce中资源调度的义务解耦合进去交 Yarn来治理了(接上去本文以2.7展开探求)。

1.x跟2.x变动

Hadoop Distributed File System 简称 HDFS,是一个散布式文件系统。HDFS有着高容错性,被设计用来部署在昂贵的配件过去提供高吞吐量的访问运行程序的数据,适宜超大数据集的运行程序。

MapReduce是一种编程模型,蕴含Map(映射) 跟 Reduce(归约)。你可以以为是归并排序的深化化思维。

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop资源治理器,它是一个通用资源治理系统,可为下层运行提供一致的资源治理和调度,它的引入为集群在应用率、资源一致治理和数据共享等方面带来了渺小好处。

Common 组件

log组件。

独有RPC体系ipc、I/O系统、序列化、紧缩。

性能文件conf。

公共方法类,比如checkSum校验。

发生背景:

随着数据质变大,数据在一个OS的磁盘无法存储了,须要将数据调配到多个OS治理的磁盘中,为了方面治理多个OS下的磁盘文件,迫切须要一种系统来治理多台机器上的文件,这就是散布式文件治理系统,HDFS是经过目录树定位文件。需留意 HDFS 只是散布式文件系统中的其中一种。

2.1 HDFS 优缺陷

2.1.1 优势

高容错性

数据会智能保管多个正本,默以为3个,经过参与正原本提高容错性。

某个正本失落后系统会智能复原。

高裁减性

HDFS集群规模是可以灵活伸缩的。

适宜大数据处置

数据规模到达GB/TB/PB级别。

文件规模到达百万规模以上。

流式访问,它能保证数据的分歧性。

低老本,部署便宜机器 提高了商业化能了。

一致对外接口,Hadoop自身用Java编写,但基于此的运行程序可以用其余言语编写调用。

2.1.1 缺陷

做不到低延时

Hadoop对高吞吐做了提升,就义了失掉数据的提早,比如毫秒级失掉数据在Hadoop上做不到。

不适宜存储少量小文件

存储少量小文件的话,它会占用 NameNode 少量的内存来存储文件、目录和块消息。因此该文件系统所能存储的文件总数受限于 NameNode的内存容量,依据阅历,每个文件、目录和数据块的存储消息大约占150字节。

小文件存储的寻道期间会超越读取期间,它违犯了HDFS的设计目的。

无法修正文件

关于上行到HDFS上的文件,不允许修正文件,仅允许追加。HDFS适宜一次性写入,屡次读取的场景。

无法并发写入

HDFS不允许多用户同时口头写操作,即同一期间,只能有一个用户口头写操作。

2.2 HDFS 组成架构

2.2.1 Client

客户端关键有如下性能:

2.2.2 NameNode

NameNode 简称NN,就是HDFS中的 Master,是个治理者,关键有如下性能:

映射消息:NameNode(文件门路,正本数,{Block1,Block2},[Block1:[三个正本门路],Block2:[三个正本门路]])

2.2.3>

NN跟DN对比

DataNode 的上班机制

DataNode 确保数据完整性

DN 进程死亡或无法跟 NN 通讯后 NN 不会立即将 DN 判死,普通经过十分钟 + 30秒再判刑。

2.2.4 Secondary NameNode

当 NameNode 挂掉的时刻,它并不能马上交流 NameNode 并提供服务。须要经过 HA等手腕成功智能切换。SNN 关键提供如下性能:

2.2.5 Block

HDFS中的文件在物理上是分块 Block 存储的,在 1.x 版本中块 = 64M,2.x中块 =128M。块不是越大越好,也不是越小越好。由于用户失掉数据消息期间 = 寻址块期间 + 磁盘传输期间。

块太小会参与寻址期间,程序大部分耗时在寻址上了。

快太大则会造成磁盘传输期间显著大于寻址期间,程序处置块数据时较慢。

2.3 HDFS 写流程

2.3.1 详细写流程

写流程

2.3.2 节点距离计算

在 HDFS 写数据的环节中,NameNode 会选用距离待上行数据最近距离的DataNode接纳数据。

最近距离 = 两个节点抵达最近的独特后人的距离总和。

节点距离计算

2.3.3 正本节点选用

机架感知

2.4 HDFS 读流程

读流程

2.5 NameNode 和 Secondary NameNode

2.5.1 NN 和 2NN 上班机制

NameNode 中元数据独自存到磁盘不繁难读写。独自存到内存时,断电会失落。Hadoop 驳回的是如下方式。

元数据序列化后在磁盘存储的中央。蕴含HDFS文件系统的一切目录跟文件inode序列化消息。

元数据在内存中存储的中央。

Edit 文件:

Edit 记载客户端更新元数据消息的每一步操作(可经过Edits运算出元数据)。

一旦元数据有更新跟参与,元数据修正追加到Edits中而后修正内存中的元数据,这样一旦NameNode 节点断电,经过 FsImage 跟 Edits的兼并生成元数据。

Edits文件不要过大,系统会活期的由 Secondary Namenode 成功 FsImage 和 Edits 的兼并。

NN跟2NN上班机制

第一阶段:NameNode 启动

第二阶段:Secondary NameNode 上班

Secondary NameNode 征询 NameNode 能否须要 CheckPoint。间接带回 NameNode能否审核结果。普通上方条件恣意满足即可:

2.6 安保形式

NameNode 刚启动时刻系统进入安保形式(只读),假设整个文件系统中99.9%块满足最小正本,NameNode 会30秒后分开安保形式。

2.6.1 NameNode 启动

将 FsImage 文件载入内存再口头Edits文件各种操作,最终内存生成完整的元数据镜像。

创立个新的 FsImage 跟空 Edits 文件。

NameNode 开局监听>

HA缺点转移

2.7.1 HDFS-HA上班要点

元数据治理方式须要扭转

内存中各自保管一份元数据。

Edits 日志只要 Active 形态的 NameNode 节点可以做写操作。

两个 NameNode 都可以读取 Edits。

共享的 Edits 放在一个共享存储中治理(qjournal 或 NFS)。

须要一个形态治感性能模块

成功了一个ZKFC,常驻在每一个namenode所在的节点,每一个ZKFC担任监控自己所在NameNode节点,应用zk启动形态标识,当须要启动形态切换时,由ZKFC来担任切换,切换时须要防止brainsplit现象的出现。

必定保证两个 NameNode 之间能够ssh无明码登录

防脑裂,同一时辰仅仅有一个 NameNode 对外提供服务。

2.7.2 ZooKeeper

ZooKeeper 提供如下性能:

2.7.3 ZKFC进程

在 NameNode 主机上有个 ZKFC(ZKFailoverController) 这样的ZK客户端,担任监督治理 NameNode形态。ZKFC担任:

3 MapReduce

MapReduce是个散布式运算程序的编程框架,是基于 Hadoop 的 数据剖析计算外围框架。处置环节分为两个阶段:Map 阶段跟 Reduce阶段。

Map 担任把一个义务合成成多个义务。该阶段的 MapTask 并发实例,齐全并行运转,互不相干。

Reduce 担任把多个义务处置结果汇总。该阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的一切 MapTask并发实例的输入。

MapReduce 编程模型只能蕴含一个 Map 阶段和一个 Reduce阶段,假设用户的业务逻辑十分复杂,那就只能多个MapReduce程序串行运转。

用户编写MR义务时刻 程序成功部分分红三个部分:Mapper、Reducer、Driver(提交运转mr程序的客户端)。

3.1 优缺陷

3.1.1 优势

易于编程

繁难成功了一些接口就可以成功个散布式程序,你写个散布式程序跟写个串行化程序一样,相似八股文编程。

良好的裁减

计算资源无余时可以繁难的参与机器来裁减计算才干。

高容错性

MapReduce义务部署在多台机器上后假设其中一台挂了,系统会启动智能化的义务转移来保证义务正确口头。

适宜PB级数据离线处置

比如 美团3K个节点的集群并发,提供超大数据处置才干。

3.1.2 缺陷

不长于实时计算

MapReduce 不会想 MySQL 一样毫秒级前往结果。

不长于流式计算

流式计算的 输入数据是灵活的,而 MapReduce 的输入数据集是静态的。

不长于DAG计算

多个运行程序存在依赖相关,MapReduce的作业结果会落盘造成少量磁盘IO,性能贼低,此时上Spark吧!

3.2 序列化

序列化

把内存中的对象,转换成字节序列(或其余数据传输协定)以便于存储(耐久化)和网络传输。

反序列化

将收到字节序列(或其余数据传输协定)或许是硬盘的耐久化数据,转换成内存中的对象。

由于 Hadoop 在集群之间启动通讯或许 RPC调用时是须要序列化的,而且要求序列化要快、且体积要小、占用带宽要小。而Java自带的序列化是重量级框架,对象序列化后会附带额外消息,比如各种校验消息,header,承袭体系等。所以Hadoop 自研了序列化框架。

Java类型 Hadoop Writable类型
BooleanWritable
ByteWritable
IntWritable
FloatWritable
LongWritable
DoubleWritable
MapWritable
ArrayWritable

3.3 MapTask 并行度

数据块:Block 是 HDFS 物理上把数据分红一块一块。

数据切片:数据切片只是在逻辑上对输入启动分片,并不会在磁盘上将其切分红片启动存储。

切片外围留意点:

3.3.1 FileInputFormat 切片源码追踪

3.3.2 切片大小计算

SplitSize= Math.max(minSize,Math.min(maxSize,blockSize))

3.3.3 切片举例

切片举例

3.4 FileInputFormat

3.4.1 成功类简介

MR义务输入文件个数各有不同,针对不同类型MR定义了一个接口跟若干成功类来读取不同的数据。

input承袭相关

TextInputFormat

自动经常使用类,按行读取每条数据,Key是该行数据的 offset,Value = 行内容。

KeyValueTExtInputFormat

每行都是一条记载,被指定分隔符宰割为Key跟Value,自动是 \t 。

NLineInputFormat

该模型下每个 map 处置 InputSplit 时不再依照 Block 块去划分,而是依照指定的行数N来划分文件。

自定义InputFormat

基础接口,改写 RecordReader,成功一次性读取一个完整文件封装为 KV,经常使用 SequenceFileOutPutFormat输入兼并文件。

CombineTextInputFormat

用于小文件过多场景,逻辑上兼并多个小文件个一个切片义务。较关键 中

3.4.2 CombineTextInputFormat

自动框架 TextInputFormat切片机制是对义务按文件布局切片,不论文件多小,都会是一个独自的切片,都会交给一个MapTask,这样假设有少量小文件,就会发生少量的MapTask,处置效率极端低下。CombineTextInputFormat可以将多个小文件从逻辑上布局到一个切片中,这样多个小文件就可以交给一个MapTask处置。关键蕴含 虚构存储环节 跟 切片环节。

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304); // 4m

虚构存储环节:

切片环节:

判别虚构存储的文件大小能否大于setMaxInputSplitSize值,大于等于则独自构成一个切片。

假设不大于则跟下一个虚构存储文件启动兼并,独特构成一个切片。

切片环节

3.6 OutputFormat

OutputFormat 是 MapReduce 输入的基类,经常出现的成功类如下:

3.5.1 TextOutputFormat

系统默逞强入格局,把每条记载写为文本行,他的K跟V是恣意类型,系统在写入时刻会一致转化为字符串。

3.5.2 SequenceFileOutputFormat

此形式下的输入结果作为后续MapReduce义务的输入,该形式下数据格局紧凑,很容易被紧缩。

3.5.3 自定义OutputFormat

假设需求不满足可按需求启动自定义。

3.6 MapReduce 流程

3.6.1 全体流程图

MapReduce流程

MapTask 上班机制

ReduceTask 上班机制

3.6.2 Shuffle

Shuffle机制

MapReduce 的外围就是 Shuffle 环节,Shuffle 环节是贯通于 map 和 reduce两个环节的!在Map端包括Spill环节,在Reduce端包括copy和sort环节。 详细Shuffle环节如下:

3.6.3 Partition

MapReduce 自动的分区方式是hashPartition,在这种分区方式下,KV 对依据 key 的 hashcode值与reduceTask个数启动取模,选择该键值对该要访问哪个ReduceTask。

//numReduceTasks自动=1所以造成自动的reduce结果=1

自定义的时刻普通就是类承袭Partitioner而后重写getPartition方法。用户也可以设置ReduceTask数量,不过会遵照如下规定。

比如 假定自定义分区数为5。

3.6.4 环形缓冲区

Map 的输入结果由 Collector 处置,每个 Map义务不时地将键值对输入到在内存中结构的一个环形数据结构中。经常使用环形数据结构是为了更有效地经常使用内存空间,在内存中搁置尽或许多的数据。

环形数据结构其实就是个字节数组byte[],叫kvbuffer,自动值100M。外面关键存储 数据 跟元数据。两边有个分界点,并且分界点是变动的。当环形缓冲区写入的buffer的大小到达 80%满足溢写条件的时刻,开局溢写spill。系统有两个线程一个担任写入数据,一个担任spill数据。

数据:

存储 Key + Value + bufindex。其中bufindex(即数据的存储方向)是不时闷着头地向上增长,比如bufindex初始值为0,一个Int型的key写完之后,bufindex增长为4,一个Int型的value写完之后,bufindex增长为8。

元数据:

元数据是为了排序而生,是关于数据形容的数据。

Kvmeta = Partition + keystart + valstart + valLength , 共占用4个Int长度,其中K的长度 =V的终点 - K的终点。

Kvmeta 的寄存指针 Kvindex 每次都是向下跳四个格子,而后再向上一个格子一个格子地填充四元组的数据。比如Kvindex初始位置是-4,当第一个键值对写完之后,(Kvindex+0)的位置寄存partition的起始位置、(Kvindex+1)的位置寄存keystart、(Kvindex+2)的位置寄存valstart、(Kvindex+3)的位置寄存valuelength,而后Kvindex跳到 -8位置,等第二个键值对和索引写完之后,Kvindex跳到-12位置。

环形缓冲区

3.6.5 Combiner 兼并

3.6.6 关于 MapReduce 排序

MapReduce框架最关键的操作就是排序,MapTask 跟 ReduceTask 都会依据key启动依照字典顺序启动快排。

MapTask 将缓冲区数据快排后写入到磁盘,而后磁盘文件会启动归并排序。

ReduceTask一致对内存跟磁盘一切数据启动归并排序。

3.6.7 ReduceJoin 跟 MapJoin

Reducejoin

思绪:经过将关联条件作为Map 输入的 Key,将两表满足Join条件的数据并携带数据源文件发送同一个ReduceTask,在Reduce端启动数据串联消息兼并。

缺陷:兼并操作在Reduce端成功,Reduce 端处置压力太大,并且Reduce端易发生数据歪斜。

实用:实用于一张表十分小、一张表很大的场景。

思绪:在 Map 端缓存多张表,提早处置业务逻辑,这样参与 Map 端业务,缩小 Reduce 端数据的压力,尽或许的缩小数据歪斜。

3.6.8 留意点

ReduceTask = 0 说明没有Reduce节点,输入文件个数和 Map 个数一样。

ReduceTask 自动= 1,所以结果是一个文件。

ReduceTask 的个数不是恣意设置的,需跟集群性能还有结果需求而定。

逻辑处置 Mapper 时刻可依据业务需求成功其中三个方法,map、setup、cleanup。

3.7 紧缩

紧缩是提高Hadoop运转效率的一种提升战略,经过在Mapper、Reducer运转环节的数据启动紧缩来缩小磁盘空间跟网络传输,最终成功提高MR运转速度。但需留意紧缩也给CPU运算带来了累赘。

紧缩的基本准则:

运算密集型义务 ,少紧缩。

IO密集型义务,多紧缩。

紧缩格局 自带 算法 裁减名 可切分吗 紧缩后,代码修正
不须要修正
不须要修正
不须要修正
不须要修正
须要建索引还须要指定输入格局

Yarn 是一个资源调度平台,担任为运算程序提供主机运算资源,相当于一个散布式的操作系统平台,而 MapReduce等运算程序则相当于运转于操作系统之上的运行程序。

4.1 基本组成

Yarn架构

YARN关键由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。

ResourceManager

处置客户端恳求

监控NodeMananger

启动或监控ApplicationMaster

计算资源的调配跟调度

NodeManager

治理单个节点上资源

处置来着ResourceManager的命令

处置来自ApplicationMaster的命令

ApplicationMaster

担任数据切分。

为运行程序放开资源并调配给外部义务。

义务的监控跟容错。

Container 是 YARN 中资源的笼统,封装了某个节点上的多维度资源,比如内存、CPU、磁盘、网络等。

YarnChild 其实它就是一个运转程序的进程。MrAppMaster 运转程序时向 Resouce Manager 恳求的 Maptask /ReduceTask。

4.2 Yarn 调度 MapReduce 义务

Yarn调度流程

当 MR 程序提交到客户端所在的节点时后 大抵运转流程如下:

作业提交

Client 调用 job.waitForCompletion 方法 YarnRunner ,向整个集群提交MapReduce作业。Client 向 RM放开一个作业id。

RM 给 Client 前往该 job 资源的提交门路和作业 id。

Client 提交jar包、切片消息和性能文件到指定的资源提交门路。

Client 提交完资源后,向 RM 放开运转 MrAppMaster。

作业初始化

当 RM 收到 Client 的恳求后,将该 Task 参与到容量调度器中。

某一个闲暇的 NodeManager 支付到该 Task 。

该 NodeManager 创立 Container,并发生 MRAppMaster。

下载 Client 提交的资源 到本地。

义务调配

MRAppMaster 向 RM 放开运转多个 MapTask 义务资源。

RM 将运转 MapTask 义务调配给俩 NodeManager。其中调配准则 是优先 jar 跟 数据在一台机器上,其次就尽或许在一个机房。最后随意来个闲暇机器。

义务运转

MR 向两个接纳到义务的 NodeManager 发送程序启动脚本,这两个 NodeManager 区分启动MapTask,MapTask对数据分区排序。

MrAppMaster 期待一切 MapTask 运转终了后,向RM放开容器 运转ReduceTask。

ReduceTask 向 MapTask 失掉相应分区的数据。

程序运转终了后,MR会向RM放开注销自己。

进展和形态更新

YARN 中的义务将其进展和形态(包括counter)前往给运行治理器, 客户端每秒向运行治理器恳求进展更新来展现给用户。

作业成功

除了向运行治理器恳求作业进展外, 客户端每5秒都会经过调用 waitForCompletion() 来审核作业能否成功。作业成功之后,运行治理器和Container会清算上班形态。作业的消息会被作业历史主机存储以备之后用户核对。

4.3 资源调度器

目前,Hadoop作业调度器关键有三种:FIFO、Capacity Scheduler 和 FairScheduler。Hadoop2.7.2自动的资源调度器是Capacity Scheduler。

FIFO调度

4.3.2 容量调度器 Capacity Scheduler

容量调度器

4.3.3 偏心调度器 Fair Scheduler

允许多队列多用户,每个队列中资源可以性能,同一队列中作业偏心共享队列中一切资源。

偏心调度器

比如有queue1、queue2、queue3三个义务队列,每个队列中的job依照优先级调配资源,优先级高取得资源多,但会确保每个义务被调配到资源。

每个义务现实所需资源跟实践取得资源的差距叫缺额,同一个队列中是依照缺额高下来先后口头的,缺额越大越优先取得资源。

4.4 义务推测口头

作业成功期间取决于最慢的义务成功期间。系统中有99%的Map义务都成功了,只要少数几个Map老是进展很慢,此时系统会发现拖后腿的义务,比如某个义务运转速度远慢于义务平均速度。为拖后腿义务启动一个备份义务,同时运转。谁先运转完,则驳回谁的结果。

5 MapReduce 提升方法

MapReduce提升方法关键从六个方面思考:数据输入、Map阶段、Reduce阶段、IO传输、数据歪斜疑问和罕用的调优参数。

5.1 数据输入

数据采集时,用 Hadoop Archive 将多个小文件打包成一个Har文件。

业务处置前,SequenceFile 由一系列KV组成,key=文件名,value=文件内容,将少量小文件兼并成大文件。

在 MapReduce 处置时,驳回CombineTextInputFormat来作为输入,处置输入端少量小文件场景。

关于少量小文件义务开启JVM 重用可提速,JVM 重用可以使得 JVM 实例在同一个 job中从新经常使用N次。N的值可以在Hadoop的mapred-site.xml文件中启动性能,通常在10-20之间。

5.2 Map 阶段

缩小溢写 Spill 次数,调整循环缓存区大小,缩小磁盘IO。

缩小兼并 Merge 次数,增大Merge文件大小缩小次数。

在不影响业务的状况下在Map端启动Combine处置。

5.3 Reduce 阶段

设置正当的Map跟REduce数,太少会造成Task期待。太多会造成竞争资源强烈。

设置Map跟Reduce阶段共存,map运转必定水平后Reduce 也可以运转。

规避经常使用Reduce,Reduce 端的Buffer也要正当设置,尽量防止溢写到磁盘。

5.4 IO 传输

驳回数据紧缩方式来缩小网络IO期间。

经常使用SequenceFile二进制文件。

5.5 数据歪斜

经过对数据抽样失掉结果集来设置分区边界值。

自定义分区。

经常使用Combine来缩小数据歪斜。

驳回MapJoin,尽量防止ReduceJoin。

参考

HDFS-Shell 指令:

您可能还会对下面的文章感兴趣: