3.3 RDD依赖关系_Spark大数据商业实战三部曲：内核解密、商业案例、性能调优（第2版）-QQ阅读中文武侠网

上QQ阅读APP看书，第一时间看更新

3.3　RDD依赖关系

RDD依赖关系为成两种：窄依赖（Narrow Dependency）、宽依赖（Shuffle Dependency）。窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partition所使用；宽依赖表示一个父RDD的Partition都会被多个子RDD的Partition所使用。

3.3.1　窄依赖解析

RDD的窄依赖（Narrow Dependency）是RDD中最常见的依赖关系，用来表示每一个父RDD中的Partition最多被子RDD的一个Partition所使用，如图3-1窄依赖关系图所示，父RDD有2～3个Partition，每一个分区都只对应子RDD的一个Partition（join with inputs co-partitioned：对数据进行基于相同Key的数值相加）。

窄依赖分为两类：第一类是一对一的依赖关系，在Spark中用OneToOneDependency来表示父RDD与子RDD的依赖关系是一对一的依赖关系，如map、filter、join with inputs co-partitioned；第二类是范围依赖关系，在Spark中用RangeDependency表示，表示父RDD与子RDD的一对一的范围内依赖关系，如union。

图3-1　窄依赖关系图

OneToOneDependency依赖关系的Dependency.scala的源码如下：

OneToOneDependency的getParents重写方法引入了参数partitionId，而在具体的方法中也使用了这个参数，这表明子RDD在使用getParents方法的时候，查询的是相同partitionId的内容。也就是说，子RDD仅仅依赖父RDD中相同partitionID的Partition。

Spark窄依赖中第二种依赖关系是RangeDependency。Dependency.scala的RangeDependency的源码如下：

RangeDependency和OneToOneDependency最大的区别是实现方法中出现了outStart、length、inStart，子RDD在通过getParents方法查询对应的Partition时，会根据这个partitionId减去插入时的开始ID，再加上它在父RDD中的位置ID，换而言之，就是将父RDD中的Partition，根据partitionId的顺序依次插入到子RDD中。

分析完Spark中的源码，下边通过两个例子来讲解从实例角度去看RDD窄依赖输出的结果。

对于OneToOneDependency，采用map操作进行实验，实验代码和结果如下：

结果为200 160 140。

对于RangeDependency，采用union操作进行实验，实验代码和结果如下：

结果为spark scala hadoop SPARK SCALA HADOOP。

3.3.2　宽依赖解析

RDD的宽依赖（Shuffle Dependency）是一种会导致计算时产生Shuffle操作的RDD操作，用来表示一个父RDD的Partition都会被多个子RDD的Partition使用，如图3-2宽依赖关系图中groupByKey算子操作所示，父RDD有3个Partition，每个Partition中的数据会被子RDD中的两个Partition使用。