R语⾔之离群点检验(part1)--利⽤箱线图原理检测离群点
学习笔记
参考书⽬:《R语⾔与数据挖掘》、《统计学》
恋爱是什么感觉利⽤箱线图原理检测离群点
箱线图
箱线图是由数据的最⼤值、最⼩值、中位数、两个四分位数这五个特征值绘制⽽成的,它主要⽤于反映原始数据分布的特征。
箱线图:
若观察值超过了上四分位数加1.5倍四分位差,或者⼩于下四分位数减1.5倍四分位差,则在箱线图中会作为离群点被单独标出。
所以,当我们拿到⼀组单变量数值型观测时,若某个观测值⼤于四分位数加1.5倍四分位差,或者⼩于下四分位数减1.5倍四分位差,则可以判定为离群值。长毛腊肠犬
西装领带的打法R语⾔实现
相关函数
boxplot.stats()
#该函数返回结果中有⼀个out组件,它存储了检测出的离群点的数值
罪不当罚案例
代码:
#模拟数据:
t.ed(1234)
x <- rnorm(100)
y <- rnorm(100)
df <- data.frame(x = x,y = y)
#分别获取x和y的离群点的⾏号,再取并集(当然还有取交集的⽅法interct):
attach(df)
(boxplot.stats(x)$out)
#3.043766 -2.855759
(boxplot.stats(y)$out)
#2.919140 -3.233152 -2.651741 -3.396064
纵死犹闻侠骨香(x_out <- which(x %in% boxplot.stats(x)$out))
#[1] 178 192
(y_out <- which(y %in% boxplot.stats(y)$out))
#[1] 27 37 182 192
detach(df)
out_point <- union(x_out, y_out)
#绘图:
plot(df, main = '散点图')
腰窝
points(df[out_point, ], col = 'red', pch = 'o', cex = 2)领略的近义词
表格怎么去重图像: