首页 > 美文鉴赏

R语言数据集分析--葡萄酒

更新时间:2023-05-05 11:51:42 阅读：评论：0

R语⾔数据集分析--葡萄酒

R语⾔对数据的分析

这些数据集可视为分类或回归任务。这类葡萄酒是按顺序排列的，⽽且不平衡(例如，普通葡萄酒⽐优质或劣质葡萄酒多)。离群点检测算法可以⽤来检测少数优秀或劣质葡萄酒。此外，我们也不确定是否所有输⼊变量都相关。因此，测试特征选择⽅法可能很有趣。

属性信息：

详情请参阅[Cortez等⼈，2009年]。

输⼊变量(基于物理化学测试)：

1-固定酸度

2-挥发性酸度

3-柠檬酸

4-残余糖

5-氯化物

6-游离⼆氧化硫

7-总⼆氧化硫

8-密度

9-pH

10-硫酸盐

11-酒精

输出变量(基于感官数据)：

12-质量(分数在0⾄10分之间)

实验过程及图⽚：

⼀、红葡萄酒分析

library(ggplot2)

library(tidyver)

library(mice)

library(VIM)

library(psych) data1 <- read.csv2(“winequality-red.csv”,header = T)

view(data1)

class(data1)

data1[,1:11]<-lapply(df[,1:11],as.character)

data1[,1:11]<-lapply(df[,1:11],as.numeric)

view(data1)

aggr(data1,prop=F,numbers=T)#分析是否有残缺值

分析：由图可知没有残缺值

pairs.panels(data1[c(“quality”,“alcohol”,“sulphates”,“density”)])#画散点图矩阵

pairs.panels(data1[c(“quality”,“alcohol”,“sulphates”,“density”,“residual.sugar”,“pH”,“citric.acid”)])#多变量相关性分析

⼆、⽩葡萄酒分析

library(ggplot2)

library(tidyver)

data<-read.csv2(“C:\includeR\winequality-white.csv”,header = T)

View(data)

>head(data)

class(data)# [1] “data.frame”

df[,1:11]<-lapply(df[,1:11],as.character)#将数据中数据的因素格式转化为字符

df[,1:11]<-lapply(df[,1:11],as.numeric)#将数据转化为数值

str(data)

install.packages(“mice”)#缺失值处理包

library(mice)

install.packages(“VIM”)#利⽤第三⽅编辑包VIM对R语⾔中的缺失值分析

library(VIM)

aggr(data,prop=F,numbers=T)

#从图中可以看出没有缺失值

ggplot(aes(x=quality),data=data) + geom_bar()+scale_x_continuous(lim=c(3,9),breaks = q(3,9,1))

#由于我们最关注葡萄酒质量分布情况，所以对质量进⾏单变量分析

#右图可见呈正态分布。

#使⽤summary对总体进⾏分析

summary(data)

#由图可知各变量的最⼤值最⼩值和中位值等值。

ggplot(aes(x = fixed.acidity), data = df) +

geom_histogram(binwidth = 0.1) +

scale_x_continuous(breaks = q(3.5, 15.5, 3))

summary(df$fixed.acidity)#画出固定酸含量分布图。

分析：从结果中可以发现，固定酸的含量⼤致是⼀个正态分布。50%的数据分布在6.3-7.3(g/dm^3)的范围之内。中位数为6.800，平均值为 6.855。

本文发布于:2023-05-05 11:51:42，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/857582.html

上一篇：关于惯导位置偏差的问题

下一篇：钣金厂常用名词中英文对照表

标签：葡萄酒数据分析变量质量

留言与评论（共有 0 条评论）