箱线图
箱线图或箱形图是由5个特征值绘制而成的图形,其有一个箱子和两条线段组成。5个特征值是变量的最大值、最小值、中位数、第一四分位数和第三四分位数。连接两个分位数画出一个箱子,箱子用中位数分割,把两个极值点与箱子用线条连接,即成箱线图。箱线图的形式如下图所示:
图片来源于网络
在R中绘制箱线图可以使用boxplot函数。
boxplot函数的基本用法为:
boxplot(x, ...)
公式形式的用法
boxplot(formula, data = NULL, ..., subset, na.action = NULL,
drop = FALSE, sep = ".", lex.order = FALSE)
默认用法:
boxplot(x, ..., range = 1.5, width = NULL, varwidth = FALSE,
notch = FALSE, outline = TRUE, names, plot = TRUE,
border = par("fg"), col = NULL, log = "",
pars = list(boxwex = 0.8, staplewex = 0.5, outwex = 0.5),
horizontal = FALSE, add = FALSE, at = NULL)
主要参数的含义:
x: 向量,列表或数据框。
formula: 公式,形如y~grp,其中y为向量,grp是数据的分组,通常为因子。
data: 数据框或列表,用于提供公式中的数据。
range: 数值,默认为1.5,表示触须的范围,即range × (Q3 - Q1)
width: 箱体的相对宽度,当有多个箱体时,有效。
varwidth: 逻辑值,控制箱体的宽度, 只有图中有多个箱体时才发挥作用,默认为FALSE, 所有箱体的宽度相同,当其值为TRUE时,代表每个箱体的样本量作为其相对宽度
notch: 逻辑值,如果该参数设置为TRUE,则在箱体两侧会出现凹口。默认为FALSE。
outline: 逻辑值,如果该参数设置为FALSE,则箱线图中不会绘制离群值。默认为TRUE。
names:绘制在每个箱线图下方的分组标签。
plot : 逻辑值,是否绘制箱线图,如设置为FALSE,则不绘制箱线图,而给出绘制箱线图的相关信息,如5个点的信息等。
border:箱线图的边框颜色。
col:箱线图的填充色。
horizontal:逻辑值,指定箱线图是否水平绘制,默认为FALSE。
下面举例说明R中绘制箱线图的方法:
统计某中学学生的身高数据如下:
144,166,163,143,152,169,130,159,160,175,161,170,146,159,150,183,165,146,169
绘制其箱线图
(1)简单的使用
h <- c(144,166,163,143,152,169,130,159,160,175,161,170,
146,159,150,183,165,146,169)
boxplot(h)
结果如下图所示:
(2)多组的箱线图
某工厂推行新的工作方法,实验组和对照组(原方法)的工作效率(每小时产量),如下面的数据:
试验组:35, 41, 40, 37, 43, 32, 39, 46
对照组:32, 39, 34, 36, 32, 38, 34, 31
绘制其箱线图。
编写R程序如下:
x <- c(35, 41, 40, 37, 43, 32, 39, 46, 32, 39, 34, 36, 32, 38, 34, 31)
f <- factor(rep(c("试验组","对照组"),each=8))
data<- data.frame(x,f)
boxplot(x~f,data)
结果如下图所示:
(3)width参数的效果
x <- c(35, 41, 40, 37, 43, 32, 39, 46, 32, 39, 34, 36, 32, 38, 34, 31)
f <- factor(rep(c("试验组","对照组"),each=8))
data<- data.frame(x,f)
boxplot(x~f,data,width=c(1,2),ylab="工作效率(个/小时)")
效果图如下图所示:
(4)箱体颜色
x <- c(35, 41, 40, 37, 43, 32, 39, 46, 32, 39, 34, 36, 32, 38, 34, 31)
f <- factor(rep(c("试验组","对照组"),each=8))
data<- data.frame(x,f)
boxplot(x~f,data,width=c(1,2),col=c(2,3),border=c("darkgray","purple"))
效果如下图所示:
(5)带凹口的箱线图
x <- c(35, 41, 40, 37, 43, 32, 39, 46, 32, 39, 34, 36, 32, 38, 34, 31)
f <- factor(rep(c("试验组","对照组"),each=8))
data<- data.frame(x,f)
boxplot(x~f,data,width=c(1,2),col=c(2,3),notch=TRUE)
如下图所示:
新闻热点
疑难解答