缺点列举法R语⾔之分组数据处理
在我们⽇常处理数据过程中,经常需要对分类或者分组数据进⾏相对应的函数处理,以下是个⼈觉得⽐较好⽤的⼏个函数。
#分组变量的处理⽅法
#tapply()函数
#by()
#aggregate()
#plyr包
#table()
第⼀步:创建数据,常见数据形式为matrix,data.frame
新加坡在哪里
x<-c("female","man","female","man","man","man")敏捷近义词
八点半的英文diploma<-c("本科","硕⼠","本科","本科","本科","硕⼠")
salary<-c(5000,13000,6000,4500,5500,14000)
data.2<-data.frame(x,diploma,salary)
我的小秘密数据内容如下
我们如果想要了解不同性别的收⼊,或者不同⽂凭的收⼊,亦或者根据两个分组变量来查看具体的收⼊,以下函数相信可以帮你。
#tapply()
通过?tapply初步了解该函数的具体有哪些参数,以及参数具体内容
可知x为我们要进⾏处理的变量,⽽INDEX是我们要根据那个变量分类,FUN就是对x进⾏何种处理,例如求和sum,求均值mean等tapply(data.2$salary,data.2$x,sum)
tapply(data.2$salary,list(data.2$x,data.2$diploma),mean)
输出结果如下,即salary为x,要进⾏处理的变量,x即为,根据性别差异统计收⼊
当,依据分组变量超过⼀,可以⽤⼀个列表list表⽰,不可以⽤连接符号c。
#by(),按照学习tapply的思路,by的参数以及⽤法雷同。
by(data.2$salary,data.2$x,sum)
by(data.2$salary,list(data.2$x,data.2$diploma),sum)
输出结果:
女孩自拍
可以看到只是在输出结果的形式有差异。
#aggregate()函数
文化翻译
对于aggregate()函数的参数表⽰⽅法,和⽤lm函数求回归的输⼊⼀样,即如salary~x+diploma
salary为要进⾏处理的变量,⽽x,diploma为分组依据变量,⽤~连接。
#table()
茶叶怎么泡
table函数可以⽣成2*2的列联表,也就是对数据进⾏分类汇总。
以后课余时间会继续根据⼤三课程更新,有时间序列分析,多元统计分析,统计计算,应⽤回归,以及数据处理,画图的⼀些简单介绍,本科菜鸟,如有问题,望见谅。以上内容参考⽹上已有资料。