离中趋势是指数据分布中各变量值背离中心值的倾向。如果说集中趋势是数据分布同质性的体现,那么离中趋势就是数据分布变异性的体现。对离中趋势的描述,就是要反映数据分布中各变量值远离中心值的程度,主要用变异指标来反映。
变异指标是反映总体各单位变量值之间变异程度的综合指标,即反映数据分布中各变量值远离中心值程度的指标。因此,变异指标不仅可以综合地显示变量值的离中趋势,说明数据的离散程度,还可以用来判别平均数的代表性。平均指标反映总体的一般水平,可以说明数据的集中趋势,但它本身无法说明其代表性的大小。变异指标则正好可以弥补这一缺点,它可以说明平均数代表性的大小,说明数据的离散程度。一般来说,变异指标越小,说明数据离散程度越小,平均数的代表性就越大;变异指标越大,说明数据离散程度越大,平均数的代表性就越小。
常用的变异指标有四分位差、全距、标准差、标准分和离散系数。
四分位差
把变量值从小到大排序,并把它们分为四等份,形成三个分割点,这三个分割点的数值就称为四分位数,记为 Q 1 (第一四分位数,也称下四分位数)、 Q 2 (第二四分位数,也称中位数)、 Q 3 (第三四分位数,也称上四分位数)。 Q 1 和 Q 3 的计算如下:
由上式计算的位置有时不是整数,因此,可以利用以下规则计算四分位数。
规则1:如果求得的位置是整数,则该位置上的数值就是四分位数。例如,样本数大小为 n =7,第一四分位数为(7+1)/4=2,即第2个顺序排列的数值。
规则2:如果求得的位置处于两个整数之间,则它们相应的数值的平均数就是四分位数。例如,样本数大小为 n =9,第一四分位数为(9+1)/4=2.5,即第2.5个顺序排列的数值,介于第2个和第3个数值之间。因此,第一四分位数等于第2个数值与第3个数值的平均数。
规则3:如果求得的位置既不是整数也不是两个整数的中间值,则先找出这两个整数对应位置的两个数据,可以分别称其为低值和高值,然后可以通过如下公式计算四分位数:
四分位数=低值+(高值-低值)×位置的小数部分
例如,样本数大小为 n =10,第一四分位数为(10+1)/4=2.75,即第2.75个顺序排列的数值,介于第2个数值与第3个数值之间,0.75是位置的小数部分,因此 Q 1 为
Q 1 =第2个数值+(第3个数值-第2个数值)×0.75
而第三四分位数为3×(10+1)/4=8.25,即第8.25个顺序排列的数值,介于第8个数值与第9个数值之间,0.25是位置的小数部分,因此 Q 3 为
Q 3 =第8个数值+(第9个数值-第8个数值)×0.25
四分位差就是第三四分位数 Q 3 与第一四分位数 Q 1 之差,用Q.D.表示,其公式为
Q.D.= Q 3 -Q 1
四分位差仅用中间50%的数据来反映数据的离散程度。其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极端数值的影响。由于中位数处于数据的中间位置,因此,四分位差的大小从一定的程度上也说明了中位数代表性的大小。四分位差越大,中位数代表性越差;四分位差越小,中位数代表性越好。四分位差主要适用于测定顺序数据的离散程度,也适用于数值型数据离散程度的测定,但不适用于分类数据离散程度的测定。