Spark系列(十一)——SparkSQL聚合函数Aggregations

更新时间:2023-07-11 20:19:09 阅读: 评论:0

Spark系列(⼗⼀)——SparkSQL聚合函数Aggregations ⼀、简单聚合
1.1 数据准备
// 需要导⼊ spark sql 内置的函数包
import org.apache.spark.sql.functions._
val spark = SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate()
val empDF = ad.json("/usr/file/json/emp.json")
// 注册为临时视图,⽤于后⾯演⽰ SQL 查询
empDF.show()
注:emp.json 可以从本仓库的 ⽬录下载。
1.2 count
/
/ 计算员⼯⼈数
empDF.lect(count("ename")).show()
1.3 countDistinct
// 计算姓名不重复的员⼯⼈数
empDF.lect(countDistinct("deptno")).show()
1.4 approx_count_distinct
通常在使⽤⼤型数据集时,你可能关注的只是近似值⽽不是准确值,这时可以使⽤ approx_count_distinct 函数,并可以使⽤第⼆个参数指定最⼤允许误差。
empDF.lect(approx_count_distinct ("ename",0.1)).show()
1.5 first & last
获取 DataFrame 中指定列的第⼀个值或者最后⼀个值。
empDF.lect(first("ename"),last("job")).show()
1.6 min & max
获取 DataFrame 中指定列的最⼩值或者最⼤值。
empDF.lect(min("sal"),max("sal")).show()
1.7 sum & sumDistinct
求和以及求指定列所有不相同的值的和。
empDF.lect(sum("sal")).show()
empDF.lect(sumDistinct("sal")).show()
1.8 avg
内置的求平均数的函数。
empDF.lect(avg("sal")).show()
1.9 数学函数
凤城河Spark SQL 中还⽀持多种数学聚合函数,⽤于通常的数学计算,以下是⼀些常⽤的例⼦:
// 1.计算总体⽅差、均⽅差、总体标准差、样本标准差
empDF.lect(var_pop("sal"), var_samp("sal"), stddev_pop("sal"), stddev_samp("sal")).show()
// 2.计算偏度和峰度
empDF.lect(skewness("sal"), kurtosis("sal")).show()
// 3. 计算两列的⽪尔逊相关系数、样本协⽅差、总体协⽅差。(这⾥只是演⽰,员⼯编号和薪资两列实际上并没有什么关联关系) empDF.lect(corr("empno", "sal"), covar_samp("empno", "sal"),covar_pop("empno", "sal")).show()
1.10 聚合数据到集合
scala>  empDF.agg(collect_t("job"), collect_list("ename")).show()
输出:
+--------------------+--------------------+
|    collect_t(job)| collect_list(ename)|
+--------------------+--------------------+
二月份的英文
|[MANAGER, [SMITH, ALLEN, WA...|
+--------------------+--------------------+
⼆、分组聚合
2.1 简单分组
//等价 SQL
spark.sql("SELECT deptno, job, count(*) FROM emp GROUP BY deptno, job").show()
输出:
+------+---------+-----+
工程挂靠协议
|deptno|      job|count|
+------+---------+-----+
|    10|PRESIDENT|    1|
|    30|    CLERK|    1|
|    10|  MANAGER|    1|
|    30|  MANAGER|    1|
|    20|    CLERK|    2|
|    30| SALESMAN|    4|
|    20|  ANALYST|    2|
抄袭的定义|    10|    CLERK|    1|
|    20|  MANAGER|    1|
+------+---------+-----+
2.2 分组聚合
// 等价语法
// 等价 SQL
spark.sql("SELECT deptno, count(ename) ,sum(sal) FROM emp GROUP BY deptno").show()
输出:
+------+----+------+
|deptno|⼈数|总⼯资|蹄形磁铁
版刻
+------+----+------+
|    10|  3|8750.0|
|    30|  6|9400.0|
|    20|  5|9375.0|
+------+----+------+
三、⾃定义聚合函数
Scala 提供了两种⾃定义聚合函数的⽅法,分别如下:
有类型的⾃定义聚合函数,主要适⽤于 DataSet;
⽆类型的⾃定义聚合函数,主要适⽤于 DataFrame。
以下分别使⽤两种⽅式来⾃定义⼀个求平均值的聚合函数,这⾥以计算员⼯平均⼯资为例。两种⾃定义⽅式分别如下:3.1 有类型的⾃定义函数
import org.apache.pressions.Aggregator
import org.apache.spark.sql.{Encoder, Encoders, SparkSession, functions}
// 1.定义员⼯类,对于可能存在 null 值的字段需要使⽤ Option 进⾏包装
ca class Emp(ename: String, comm: scala.Option[Double], deptno: Long, empno: Long,
hiredate: String, job: String, mgr: scala.Option[Long], sal: Double)
// 2.定义聚合操作的中间输出类型
ca class SumAndCount(var sum: Double, var count: Long)
/* 3.⾃定义聚合函数
* @IN  聚合操作的输⼊类型
* @BUF reduction 操作输出值的类型
* @OUT 聚合操作的输出类型
*/
object MyAverage extends Aggregator[Emp, SumAndCount, Double] {
属蛇人的婚姻
/
/ 4.⽤于聚合操作的的初始零值
新闻二则
override def zero: SumAndCount = SumAndCount(0, 0)
// 5.同⼀分区中的 reduce 操作
override def reduce(avg: SumAndCount, emp: Emp): SumAndCount = {
avg.sum += emp.sal
avg
}
// 6.不同分区中的 merge 操作
override def merge(avg1: SumAndCount, avg2: SumAndCount): SumAndCount = {
avg1.sum += avg2.sum
avg1
}
// 7.定义最终的输出类型
override def finish(reduction: SumAndCount): Double = reduction.sum / unt
// 8.中间类型的编码转换
override def bufferEncoder: Encoder[SumAndCount] = Encoders.product
// 9.输出类型的编码转换
override def outputEncoder: Encoder[Double] = Encoders.scalaDouble
}
object SparkSqlApp {
/
/ 测试⽅法
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder().appName("Spark-SQL").master("local[2]").getOrCreate()        import spark.implicits._
val ds = ad.json("file/emp.json").as[Emp]
// 10.使⽤内置 avg() 函数和⾃定义函数分别进⾏计算,验证⾃定义函数是否正确
val myAvg = ds.Column.name("average_sal")).first()
val avg = ds.lect(functions.l("sal"))).first().get(0)
println("⾃定义 average 函数 : " + myAvg)
println("内置的 average 函数 : " + avg)
}
}
⾃定义聚合函数需要实现的⽅法⽐较多,这⾥以绘图的⽅式来演⽰其执⾏流程,以及每个⽅法的作⽤:
关于 zero,reduce,merge,finish ⽅法的作⽤在上图都有说明,这⾥解释⼀下中间类型和输出类型的编码转换,这个写法⽐较固定,基本上就是两种情况:
⾃定义类型 Ca Class 或者元组就使⽤ Encoders.product ⽅法;
基本类型就使⽤其对应名称的⽅法,如 scalaByte,scalaFloat,scalaShort 等,⽰例如下:
override def bufferEncoder: Encoder[SumAndCount] = Encoders.product
override def outputEncoder: Encoder[Double] = Encoders.scalaDouble
3.2 ⽆类型的⾃定义聚合函数
理解了有类型的⾃定义聚合函数后,⽆类型的定义⽅式也基本相同,代码如下:
import org.apache.pressions.{MutableAggregationBuffer, UrDefinedAggregateFunctio
n}
import org.apache.pes._
import org.apache.spark.sql.{Row, SparkSession}
object MyAverage extends UrDefinedAggregateFunction {
// 1.聚合操作输⼊参数的类型,字段名称可以⾃定义
def inputSchema: StructType = StructType(StructField("MyInputColumn", LongType) :: Nil)
// 2.聚合操作中间值的类型,字段名称可以⾃定义
def bufferSchema: StructType = {
StructType(StructField("sum", LongType) :: StructField("MyCount", LongType) :: Nil)
}
// 3.聚合操作输出参数的类型
def dataType: DataType = DoubleType
// 4.此函数是否始终在相同输⼊上返回相同的输出,通常为 true
def deterministic: Boolean = true
// 5.定义零值
def initialize(buffer: MutableAggregationBuffer): Unit = {
buffer(0) = 0L
buffer(1) = 0L
}
// 6.同⼀分区中的 reduce 操作
def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
if (!input.isNullAt(0)) {
buffer(0) = Long(0) + Long(0)
buffer(1) = Long(1) + 1
}
}
// 7.不同分区中的 merge 操作
def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
buffer1(0) = Long(0) + Long(0)
buffer1(1) = Long(1) + Long(1)
}
// 8.计算最终的输出值
def evaluate(buffer: Row): Double = Long(0).toDouble / Long(1)
}
object SparkSqlApp {
// 测试⽅法

本文发布于:2023-07-11 20:19:09,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1091340.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:聚合   定义   类型   函数   输出   操作   计算
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图