Hive中使⽤Distinct踩到的坑
猴子养殖
问题描述:
在使⽤Hive的过程中,⽤Distinct对重复数据进⾏过滤,得出了⼀个违背认知的结果,百思不得其解。
假设:test表中有100W数据,对test表按照a, b, c, d, e去重。
⼀、使⽤Distinct的SQL如下:
SQL1 :lect count(distinct a, b, c, d, e) from test;鲫鱼汤怎么做法
袁隆平爷爷的故事得出结果: 2W+。
根据数据特点第⼀感觉,并不会有那么多重复数据,对⾃⼰的distinct使⽤产⽣了怀疑,因此⽤group by校验结果。⼆、使⽤Group by的SQL如下:快乐星期天
SQL2 :lect sum (gcount) from (lect count(*) gcount from test group by a, b, c, d, e) t
得出结果: 80W+。
这个结果是符合数据特点的;
哑巴吃黄连歇后语思维破裂三、修改SQL1,去掉⼀个字段;
SQL3:lect count(distinct b, c, d, e) from test;
李荣浩老街得出结果:90W+。
四、对⽐SQL1和 SQL3
按照4个字段distinct 理论上⼀定⽐ 5个字段distinct 结果少, 测试结果缺恰恰相反;
吸毒的危害
原因就是因为a列中包含null, 按我的认知以为所有的null值会被归结为同⼀个,可实际上hive并不会;
所以distinct的列中如果含有null值,会导致结果不准,需要将null值替换为⼀个统⼀的值。
修改如下:
lect count(distinct nvl(a, 0), b, c, d, e) from test;
如上,问题解决!