R语言之分组数据处理

更新时间:2023-06-27 11:32:40 阅读：评论：0

缺点列举法R语⾔之分组数据处理

在我们⽇常处理数据过程中，经常需要对分类或者分组数据进⾏相对应的函数处理，以下是个⼈觉得⽐较好⽤的⼏个函数。

#分组变量的处理⽅法

#tapply()函数

#by()

#aggregate()

#plyr包

#table()

第⼀步：创建数据，常见数据形式为matrix，data.frame

新加坡在哪里

x<-c("female","man","female","man","man","man")敏捷近义词

八点半的英文diploma<-c("本科","硕⼠","本科","本科","本科","硕⼠")

salary<-c(5000,13000,6000,4500,5500,14000)

data.2<-data.frame(x,diploma,salary)

我的小秘密数据内容如下

我们如果想要了解不同性别的收⼊，或者不同⽂凭的收⼊，亦或者根据两个分组变量来查看具体的收⼊，以下函数相信可以帮你。

#tapply()

通过？tapply初步了解该函数的具体有哪些参数，以及参数具体内容

可知x为我们要进⾏处理的变量，⽽INDEX是我们要根据那个变量分类，FUN就是对x进⾏何种处理，例如求和sum，求均值mean等tapply(data.2$salary,data.2$x,sum)

tapply(data.2$salary,list(data.2$x,data.2$diploma),mean)

输出结果如下，即salary为x，要进⾏处理的变量，x即为，根据性别差异统计收⼊

当，依据分组变量超过⼀，可以⽤⼀个列表list表⽰，不可以⽤连接符号c。

#by()，按照学习tapply的思路，by的参数以及⽤法雷同。

by(data.2$salary,data.2$x,sum)

by(data.2$salary,list(data.2$x,data.2$diploma),sum)

输出结果：

女孩自拍

可以看到只是在输出结果的形式有差异。

#aggregate()函数

文化翻译

对于aggregate()函数的参数表⽰⽅法，和⽤lm函数求回归的输⼊⼀样，即如salary~x+diploma

salary为要进⾏处理的变量，⽽x，diploma为分组依据变量，⽤~连接。

#table()

茶叶怎么泡

table函数可以⽣成2*2的列联表，也就是对数据进⾏分类汇总。

以后课余时间会继续根据⼤三课程更新，有时间序列分析，多元统计分析，统计计算，应⽤回归，以及数据处理，画图的⼀些简单介绍，本科菜鸟，如有问题，望见谅。以上内容参考⽹上已有资料。

本文发布于:2023-06-27 11:32:40，感谢您对本站的认可！

标签：数据变量处理分组函数参数

留言与评论（共有 0 条评论）