【Spark】Spark优化操作之自定义distinct

更新时间:2023-07-11 19:06:58 阅读：评论：0

根深蒂固的意思

【Spark】Spark优化操作之⾃定义distinct

党员自我剖析因为默认的distinct算⼦操作效率太低，⾃⼰改写⼀下。

很简单

def mydistinct(iter: Iterator[(String, Int)]): Iterator[String]={

iter.foldLeft(Set[String]())((CurS, item)=> CurS + item._1).toIterator

}

// mydistinct 的使⽤过程如下

val rdd2 = rdd1.

全国gdp排行map(x =>(x._1 + SPLIT + x._2 + SPLIT + x._3 + SPLIT + x._4, 1)).

partitionBy(new org.apache.spark.HashPartitioner(100)).

distinct).逖的拼音

一什么火柴map(key =>{高五

val strs = key.split(SPLIT)狂妄自大的拼音

(strs(0), strs(1), strs(2), strs(3))

})

说明：

1. mydistinct的实现是利⽤t的特性实现的，在⼀个partition内实现，再reduce各个partition，从⽽实现全量去重。

2. mydistinct实现之前，先做partitionBy，因为key值发⽣变化，⽗rdd的分区不适⽤新的rdd，若不做partitionBy，分区与分区之间可

得成比目何辞死能存在⼀样的，最后reduce的时候还有可能出现重复。

3. 做partitionBy就是为了让相同key值的数据，刷新到同⼀个分区内。再在partition内去重，⼤⼤提⾼的效率。

本文发布于:2023-07-11 19:06:58，感谢您对本站的认可！

标签：操作实现刷新还有默认排行

留言与评论（共有 0 条评论）