描述样本值的离散程度,最常用的指标是方差和标准差,它们与前面所说的全距(极差)只使用了两个极值情况不同,它们利用了样本的全部信息去描述数据取值的分散性。
方差是各样本相对均值的偏差平方和的平均。使用s2来表示,其公式如下:
当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
样本方差的开方称为样本标准差,记为s,其计算公式如下:
标准差越大,数据的离散程度越大,反之越小。但标准差与方差不同的地方是,标准差是有量纲的,它与变量值的计量单位相同,因此具有较强的实际意义,在实际应用较广泛。
在R中使用var函数和sd函数分别计算方差和标准差。
var函数的语法形式如下:
var(x, y = NULL, na.rm = FALSE, use)
参数x是一个数值型向量,矩阵或数据框;
参数y是与x维度相容的一个向量、矩阵或数据框,默认为NULL值;
na.rm为逻辑值,指示是否移除缺失值,默认为FALSE;
use是一个可选参数,是一个字符型字符串。用于指明在有缺失值时计算协方差的方法。只能是 "everything", "all.obs", "complete.obs", "na.or.complete", or "pairwise.complete.obs"中值之一。
sd函数的语法形式如下:
sd(x, na.rm = FALSE)
各参数的含义与var函数对应的参数相同,但是x是一个数值型向量。
下面使用一个例子来说明具体使用方法。
设从某班某门课程中随机抽取了20个学生的成绩,具体如下:
51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70.
计算其方差和标准差。
编写R程序如下:
grade <- c(51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70)
ss <- var(grade)
s <- sd(grade)
print(ss)
print(s)
计算结果如下图所示:
即方差为:222.87,标准差为:14.93
新闻热点
疑难解答