Hive中使用Distinct踩到的坑

更新时间:2023-07-11 19:08:03 阅读：评论：0

Hive中使⽤Distinct踩到的坑

猴子养殖

问题描述：

在使⽤Hive的过程中，⽤Distinct对重复数据进⾏过滤，得出了⼀个违背认知的结果，百思不得其解。

假设：test表中有100W数据，对test表按照a, b, c, d, e去重。

⼀、使⽤Distinct的SQL如下：

SQL1 ：lect count(distinct a, b, c, d, e) from test;鲫鱼汤怎么做法

袁隆平爷爷的故事得出结果： 2W+。

根据数据特点第⼀感觉，并不会有那么多重复数据，对⾃⼰的distinct使⽤产⽣了怀疑，因此⽤group by校验结果。⼆、使⽤Group by的SQL如下：快乐星期天

SQL2 ：lect sum (gcount) from (lect count(*) gcount from test group by a, b, c, d, e) t

得出结果： 80W+。

这个结果是符合数据特点的；

哑巴吃黄连歇后语思维破裂三、修改SQL1，去掉⼀个字段；

SQL3：lect count(distinct b, c, d, e) from test;

李荣浩老街得出结果：90W+。

四、对⽐SQL1和 SQL3

按照4个字段distinct 理论上⼀定⽐ 5个字段distinct 结果少，测试结果缺恰恰相反；

吸毒的危害

原因就是因为a列中包含null，按我的认知以为所有的null值会被归结为同⼀个，可实际上hive并不会；

所以distinct的列中如果含有null值，会导致结果不准，需要将null值替换为⼀个统⼀的值。

修改如下：

lect count(distinct nvl(a, 0), b, c, d, e) from test;

如上，问题解决！

本文发布于:2023-07-11 19:08:03，感谢您对本站的认可！

标签：结果数据得出问题特点思维需要修改

留言与评论（共有 0 条评论）