R语⾔数据集分析--葡萄酒
R语⾔对数据的分析
这些数据集可视为分类或回归任务。这类葡萄酒是按顺序排列的,⽽且不平衡(例如,普通葡萄酒⽐优质或劣质葡萄酒多)。离群点检测算法可以⽤来检测少数优秀或劣质葡萄酒。此外,我们也不确定是否所有输⼊变量都相关。因此,测试特征选择⽅法可能很有趣。
属性信息:
详情请参阅[Cortez等⼈,2009年]。
输⼊变量(基于物理化学测试):
1-固定酸度
2-挥发性酸度
3-柠檬酸
4-残余糖
5-氯化物
6-游离⼆氧化硫
7-总⼆氧化硫
8-密度
9-pH
10-硫酸盐
11-酒精
输出变量(基于感官数据):
12-质量(分数在0⾄10分之间)
实验过程及图⽚:
⼀、红葡萄酒分析
library(ggplot2)
library(tidyver)
library(mice)
library(VIM)
library(psych) data1 <- read.csv2(“winequality-red.csv”,header = T)
view(data1)
class(data1)
data1[,1:11]<-lapply(df[,1:11],as.character)
data1[,1:11]<-lapply(df[,1:11],as.numeric)
view(data1)
aggr(data1,prop=F,numbers=T)#分析是否有残缺值
分析:由图可知没有残缺值
pairs.panels(data1[c(“quality”,“alcohol”,“sulphates”,“density”)])#画散点图矩阵
pairs.panels(data1[c(“quality”,“alcohol”,“sulphates”,“density”,“residual.sugar”,“pH”,“citric.acid”)])#多变量相关性分析
⼆、⽩葡萄酒分析
library(ggplot2)
library(tidyver)
data<-read.csv2(“C:\includeR\winequality-white.csv”,header = T)
View(data)
>head(data)
class(data)# [1] “data.frame”
df[,1:11]<-lapply(df[,1:11],as.character)#将数据中数据的因素格式转化为字符
df[,1:11]<-lapply(df[,1:11],as.numeric)#将数据转化为数值
str(data)
install.packages(“mice”)#缺失值处理包
library(mice)
install.packages(“VIM”)#利⽤第三⽅编辑包VIM对R语⾔中的缺失值分析
library(VIM)
aggr(data,prop=F,numbers=T)
#从图中可以看出没有缺失值
ggplot(aes(x=quality),data=data) + geom_bar()+scale_x_continuous(lim=c(3,9),breaks = q(3,9,1))
#由于我们最关注葡萄酒质量分布情况,所以对质量进⾏单变量分析
#右图可见呈正态分布。
#使⽤summary对总体进⾏分析
summary(data)
#由图可知各变量的最⼤值最⼩值和中位值等值。
ggplot(aes(x = fixed.acidity), data = df) +
geom_histogram(binwidth = 0.1) +
scale_x_continuous(breaks = q(3.5, 15.5, 3))
summary(df$fixed.acidity)#画出固定酸含量分布图。
分析:从结果中可以发现,固定酸的含量⼤致是⼀个正态分布。50%的数据分布在6.3-7.3(g/dm^3)的范围之内。中位数为6.800,平均值为 6.855。