在统计调查过程中所得出的统计数字,与客观实际数量之间存在一定的差别,统称为统计误差。由于造成统计误差的原因不同,它可以分为调查误差和代表性误差。调查误差是指在调查过程中,由于各种主观或客观因素而引起的技术性、登记性误差以及责任性误差等。代表性误差是指从抽样总体得出的指标数值与全及总体的指标数值之间可能存在的误差,它可以反映抽样总体在多大程度上代表全及总体,所以称为代表性误差。全面调查只产生调查误差,而进行抽样调查时,调查误差和代表性误差都可能发生。
代表性误差也有两种不同的情况:
(1)由于破坏抽样的随机原则而产生的系统性误差,例如抽取调查单位时,调查者有意识地一贯挑选较好的或较差的单位进行调查,据此计算的抽样指标数值必然要比全及指标数值偏高或者偏低,所以这种误差也称为“偏差”。
(2)随机误差是指在抽样调查过程中,按照随机原则从全及总体中抽取部分单位作为抽样总体,具有随机性或偶然性,因此抽样总体与全及总体在结构上不可能是一致的,据此计算的抽样指标数值与全及总体指标数值之间存在一定的误差。这种误差只要遵从随机原则进行抽样调查,就不可避免,只不过误差数值大小不同而已。
抽样误差是指不包括调查误差和系统性误差在内的随机误差,亦即在遵守随机原则的条件下,用抽样指标代表全及指标不可避免的误差,其中主要指抽样平均数与总体平均数的差数( x – X ),抽样成数与总体成数的差数( p – P )。如前所述,总体平均数和成数是唯一确定的,抽样平均数和成数则是随机变量,因而抽样误差也不是唯一确定的,而是随机变量。抽样误差愈小,说明样本的代表性愈高;反之,样本的代表性愈低。
抽样误差是抽样调查所固有的、不可避免的误差,但可以按照大数定律和数理统计方法进行计算,确定其数量界限并加以控制。因此,运用抽样估计和推断,为了控制抽样误差,就应分析制约抽样误差的因素。制约抽样误差的因素主要有以下两种。
(一)抽样单位数(n)的多少
在其他条件不变的情况下,抽样误差的大小与抽样单位数的多少成反比,即抽样单位数愈多,抽样误差就愈小;反之,抽样单位数减少,抽样误差就增大。显然,如果抽样单位数扩大到与总体单位数相等时,则抽样调查就成为全面调查,抽样指标数值等同于全及指标数值,也就无所谓抽样误差了。
(二)总体被研究标志的变异程度
抽样误差的大小与全及总体标志的变异程度成正比,即总体标志的变异程度越大,抽样误差就越大;反之,总体标志的变异程度越小,抽样误差就越小。可以设想,如果总体各个标志值之间没有差异,则标志变动度(通常用标准差 σ 表示)等于零,从而抽样指标数值与总体指标数值就会相等,无疑地,就不会产生抽样误差问题。
此外,不同的抽样组织方式和方法也影响抽样误差。例如在第四节中将会看到,由于采用不同的抽样组织方式,所抽出的样本对于全及总体的代表性也不一样,因而就有不同的抽样误差。同时,从总体中抽样时有两种不同的方法,即重复抽样和不重复抽样,也对抽样误差有一定的影响。重复抽样就是把已经抽出的单位再放回到全及总体中,使之与其他单位仍有同等被抽出的机会,在这种抽样过程中,全及总体单位数始终是相同的。不重复抽样是指任一单位一经抽出,不再放回全及总体去参加下一次抽样,因而每抽一次,总体单位数就不断减少,其标志变异程度也会随着变小。一般说来,不重复抽样误差小于重复抽样误差。