R语言中因子的创建与管理

2023-05-01 13:45:47

字体：大中小

来源：转载

供稿：网友

因子在R语言中可以用来表示名义型变量或有序变量。

在统计学中，变量可以分为：区间变量，名义变量和有序变量。

区间变量即可以取连续值的变量，如体重，身高，温度等等。

名义变量一般表示类别，如性别，种族等等。

有序变量是有一定排序顺序的变量，如职称，年级等等。

在R语言中，名义变量和有序变量可以使用因子来表示。

1、因子的创建

在R语言中可以使用factor()函数和gl()函数来创建因子变量。

（1）使用factor()函数

函数factor()以一个整数向量的形式存储类别值，整数的取值范围是[1... k ]（其中k 是名义型变量中唯一值的个数），同时一个由字符串（原始值）组成的内部向量将映射到这些整数上。

其语法格式为：

f<-factor(x=charactor(),levels,labels=levels,exclude = NA, ordered = is.ordered(x),namax = NA)

其中：

x 为创建因子的数据，是一个向量；levels：因子数据的水平，默认是x中不重复的值;labels：标识某水平的名称，与水平一一对应，以方便识别，默认取levels的值；exclude:从x中剔除的水平值，默认为NA值；ordered:逻辑值，因子水平是否有顺序（编码次序），若有取TRUE，否则取FALSE；nmax：水平个数的限制。

fc1<-factor(c(1,2,3,3,1,2,2,3,1,3,2,1))

fc2<-factor(rep(1:3,times=2),labels=c("A","B","C"))

grade<-c("Freshman","Sophomore","Junior","Senior")

fc3<-factor(grade,ordered=TRUE) #对于字符型向量，因子的水平默认依字母顺序创建

fc4<-factor(grade,ordered=TRUE, levels=c("Freshman","Sophomore","Junior","Senior")) #指定levels，则按levels中的顺序定义数值

本部分执行情况如下图所示：

R语言中创建因子的方法