0%

Spark实际操作过程中的一些调优笔记

Spark调优的一些参数设置


SparkConf的一些参数设置

较为全面的一个Spark性能参数讲解

spark分区器

  • 主要有HashPartitioner和RangePartitioner两种。

  • HashPatitioner按照给定key计算出的HashCode通过模运算来分区,缺点是可能造成分区出现数据倾斜。

  • RangePartioner尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的(分区内部无序)。在分区计算时可能需要消耗部分资源,因此选择那种分区方法应看具体情况。

  • Spark分区器HashPartitioner和RangePartitioner代码详解