一、随机抽样的概念和分类
随机抽样是按随机原则在调查总体中进行抽样的方法。这里的随机原则是指保证总体内每个个体被抽取机会都均等的原则,又称“均等原则”。随机抽样排除了人为抽样的主观随意性,使抽取的样本更具客观代表性。因此,随机抽样具有抽查结果比较准确、可信,抽查误差可以计算、检验、修正与调控等优点。
随机抽样方式多种多样,其中最主要的有简单随机抽样、系统抽样、分层随机抽样与分群随机抽样四种。
(一)简单随机抽样
简单随机抽样又称单纯随机抽样,是随机抽样方法中最简单的一种,它对调查总体不进行任何分组、排队,完全凭着偶然的机会从中抽取个体加以调查。这种调查一般适用于调查总体单位数不大,总体中各个体差异较小的情况,或者调查对象不明,难以分组、分类时的情况。简单随机抽样常用的方法有抽签法和随机数表法两种。
1.抽签法
抽签法(又称丢骰子法)是简单随机抽样的一种常用方法。首先,把总体中全部个体按1,2……n统一编号;然后,用丢骰子法确定被抽取样本的号码数,直到抽足预先规定的样本数目为止。这种方法虽简单,但可以保证每个样本都有均等机会被抽中。
2.随机数表法
随机数表(又称乱数表)是由摇码机逐个摇出或电子计算机自动生成的一组按二位数(或二位)从0~9十个自然数的组合表,表内任何号码都拥有相同的出现机会。
为《随机数表》的部分摘录。
利用随机数表可以方便地进行简单随机抽样。例如,拟在900人中抽取20个样本单位,可以从表中任何一个数字开始从左到右(或从右到左),从上到下(或从下到上),连续(或间隔相同位数)进行抽样。假设从第11行第1个位数开始,从左到右,每三位数一组编码,则有:
181807924644171658097983861962067
650031026623897758416074499831146
322
其中:924、962、983超出900,应舍去,所保留的20个样本编号即为抽样的样本单位。
简单随机抽样的优点是方法简单,在理论上最符合随机原则,但在实际应用中有一定的局限性,例如,当总体单位数目十分庞大时,很难对总体中各个体进行编号;当总体的标志变异程度较大时,其代表性不如经过分组后再抽样的代表性高。
(二)系统抽样
系统抽样也称等距抽样或机械抽样,就是先将调查总体中的各个体按一定标志排列起来,然后按照固定顺序和一定间隔来抽取样本单位。系统抽样的基本步骤如下:
1.对样本进行排列
排列所依据的标志有两种:一种是按与调查项目无关的标志排列。例如,在住户调查时,住户可以按住户所在街道的门牌号码排列,然后每间隔相同的若干号码抽取一户进行调查。另一种是按与调查项目有关的标志排列。例如,在住户调查时,按住户平均月收入排列,再进行抽选。
2.计算抽样距离
在排列的基础上,还要计算抽样距离(间隔),计算公式为
抽样距离调查总体(N)/样本数(n)
3.抽样
确定抽样距离之后,可以采取简单随机抽样方式,从第一段距离中抽取第一个样本单位,然后按抽样距离继续抽选余下的样本,直到抽够为止。
“例4-1”某地区有100家零售店,采取系统抽样方法抽取10家进行调查。
第一步,将调查对象进行编号,即从1号到100号。
第二步,确定抽样间隔。已知调查总体N=100家,样本数n10家,故抽样间隔=100/1010家。
第三步,确定起始抽号数。用10张卡片从1到10进行编号,然后从中随机抽取1张作为起始抽号数。如果抽出的是9号,则9号为起始抽号数。
第四步,确定被抽取的样本单位。从起始抽号数开始,按照抽样间隔选择样本。本例从9号起每间隔10个号抽取一个,直到抽足10个为止。计算方法是
9
9+10=19
9+2×10=29
……
9+9×10=99
即所抽中的样本是编号为9、19、29、39、49、59、69、79、89、99的10个零售店。
系统抽样与简单随机抽样相比,可使中选的单位比较均匀地分布在调查总体中,尤其是当调查现象的标志变异程度较大,而在实际工作中又不可能抽选更多的样本单位时,这种方法更为有效,因此系统抽样是市场调查中被广泛应用的一种抽样方法。
系统抽样也有一定的局限性,表现在两个方面:
(1)运用系统抽样的前提是要有调查总体中每个单位的有关资料,特别是按照有关标志排列时,往往需要更为详尽、具体的相关资料,这是一项很复杂和细致的工作。
(2)当抽样间隔和被调查对象本身的节奏性(或循环周期)相重合时,就会影响调查的精度。
(三)分层随机抽样
分层随机抽样又称分类随机抽样,是指按某种划分标准将调查总体先分为若干层次或者类型,然后再从各层中按简单随机抽样法抽取若干样本的方法。由于事先对调查总体进行了分层,所以,这种抽样方法的实质是分层加简单随机抽样,它可以提高抽样结果的代表性。例如,在调查人口时,可按年龄、收入、职业等标志将总体划分为不同的阶层或类型,然后按照要求在各个阶层中进行随机抽样。分层抽样的方式一般有等比例抽样和非等比例抽样两种。
1.等比例抽样
等比例抽样是指分层以后,按各层占总体的比例分配各层的样本数量,然后用简单随机抽样法抽取各层样本单位的一种方法。计算公式为
nin
式中:ni――第i层应抽取的样本数;
Ni――各层的总体单位数;
N――调查总体的全部单位数;
n――设定的抽样数。
“例4-2”某地区百货商店为10000户,其中大型、中型与小型百货商店分别为1000、2000、7000户,当抽样数为200户时,若用等比例抽样法应从各层中各抽多少样本单位?
按照等比例抽样公式,各层的样本数分别为:
大型百货商店:n大×20020(户)
中型百货商店:n中×20040(户)
小型百货商店:n小×200140(户)
等比例抽样法适用于各层具有明显差异,各层内部具有较好一致性,各层在总体中所占比例不过分悬殊的市场调查。
2.非等比例抽样
非等比例抽样(又称分层最佳抽样)是指在等比例分层抽样的基础上,再根据各层样本标准差的大小,而调整各层样本数的一种抽样方法。其实质是既按各层比例,又按各层样本标准差大小进行抽样。其计算公式为
nin
式中:Si――第i层的样本标准差;
ni――第i层应抽取的样本数;
Ni――各层的总体单位数;
n――设定的抽样数。
“例4-3”资料如“例4-2”所示,其中大型、中型与小型百货商店的样本标准差,试用非等比例抽样法计算各层应抽取的样本数分别为多少?
大型百货商店:n大×20055(户)
中型百货商店:n中×20067(户)
小型百货商店:n小×20078(户)
分层随机抽样实质上是把科学分组方法和抽样原理结合起来,前者能划分出性质比较接近的各组,以减少标准值之间的变异程度;后者是按随机原则,可以保证大数法则的正确运用。因此,分层随机抽样一般比简单随机抽样和系统抽样更为精确,能够通过对较少的样本单位的调查,得到比较准确的推断结果,特别是当总体数目较大、内部结构复杂时,分层随机抽样常常能取得令人满意的效果。
(四)分群随机抽样
分群随机抽样(又称整群抽样)是指将调查总体按某种方式划分为若干群,然后以群为抽取对象,随机抽取一部分群,对每个被抽中的群所包含的所有单位进行全面调查。例如,欲对某校学生进行抽样调查,可以采用两种不同的抽样方法,一种是根据学生名录随机抽取学生,然后对被选中的学生进行调查;另一种方法不是直接抽取学生,而是随机抽取若干学生宿舍(或班级),然后对住在该宿舍的所有学生进行调查。后一种方法就是分群随机抽样。由此可知,在分群随机抽样中,抽样对象与接受调查的单位是不同的。分群随机抽样具有以下特点:
1.抽样框编制得以简化
在实践中,有时构造抽样框是不可能的,因为没有相应的资料,有时虽然可以构造抽样框,但工作量极大。比较而言,构造群的抽样框则要更容易、更方便。
2.实施调查便利,节省费用
调查对象分布过于分散会给调查带来不便,并使调查费用增大。而分群随机抽样的样本分布相对集中,调查人员无需大量往来于调查对象之间,能够节省时间和费用。如果群是以行政单位划分的,调查时得到行政单位的配合,更有助于调查的实施,可以得到较高质量的原始数据。
3.抽样误差较大
因为分群随机抽样抽取的样本单位比较集中。一个群内各个单位之间的差异比较小,而不同群之间的差别比较大,群内每个单位所提供的信息价值就有限,因此其抽样误差常常大于简单随机抽样。但是,对于某些特殊结构的总体,分群随机抽样反而有较高的精度,这种特殊结构的总体是指总体中各个群的结构相似。例如,一般家庭都有男性、女性,以家庭作为群,如果估计男女性别比例,采用分群随机抽样,估计的精度要比直接抽取个人进行估计的精度高。
尽管与其他抽样方式相比,分群随机抽样效果一般较差,但其实际应用却比较广泛,除抽样框容易获得之外,还有以下几个方面的原因:
(1)当缺少基本单位的名单而难以直接从总体中抽取所要调查的基本单位,但以由基本单位组成的群体(即组合单位)作为抽样单位却有现成的名单或有明显的界限时,分群随机抽样就显得方便实用,避免了编制抽样框的问题。
(2)即使容易获得个体的抽样框,但从费用上考虑,直接从个体抽样获得的样本可能比较分散,从而将增加诸如交通之类的费用,耗时也将增加很多。相反,按分群随机抽样,由于样本相对集中,既方便调查,也节省费用。因此,虽然对同样多的个体而言,分群抽样的精度稍低,但因每调查一个样本单位的平均费用和耗时均低,就可以通过适当增加样本单位数量来达到节省费用、精度高的目标。
(3)采用分群随机抽样是抽样调查本身目的的需要。有些抽样调查,只有进行分群随机抽样才能说明问题。例如,普查后的抽样复查,要想估计其差错率,只有通过对一定地理区域的抽样复查后的人口群体进行全面调查才行。类似的人口出生率、流动率等调查都需要采用整群抽样。
(4)在某些总体的各个子总体之间的差异不大时,采用分群抽样的精度不比直接从总体中抽取样本的精度低。
值得指出的是,分群随机抽样虽然和分层随机抽样都要将总体分为相互独立的、完整的子集,但是两者之间有着根本的区别:
(1)分层抽样的样本是从每个子集中抽取的,而分群抽样只是对部分子集进行调查。
(2)分层抽样是按照与调查所关心的特征进行分层,而分群抽样往往是按照总体单位自然形成的特征进行分群。
(3)分层随机抽样要求层间异质、层内同质;而分群随机抽样正好相反,它要求群间同质、群内异质。
例如,某市有800个居委会,每个居委会平均有100户,现在采用简单随机抽样从800个居委会中抽出10个居委会,共1000户作为抽样调查样本单位的方法即为分群随机抽样。
二、随机抽样的特点
(一)随机抽样的优点
随机抽样是从调查总体中按照随机原则抽取一部分单位进行调查。它的调查范围和工作量比较小,又排除了人为的干扰,因此,能够省时、省力、省费用,还能较快取得调查结果。同时,抽取的样本可以大致上代表总体,调查结果可以用来推断总体有关指标。
(二)随机抽样的缺点
(1)对所有调查样本给予平等对待,难以体现重点。
(2)抽样范围比较广,所需时间长,同样规模的随机抽样的费用要比非随机抽样高,参加调查人员多。
(3)需要具备一定专业知识的专业人员进行抽样和资料分析,一般调查人员难以胜任。
三、抽样误差及其测定
(一)抽样误差的含义
抽样误差是指按照随机原则抽样时,在没有登记误差的条件下,所得样本指标与总体指标的实际差数。抽样误差的大小能够说明抽样指标估计总体指标是否可行、抽样效果是否理想等调查性问题。常见的抽样误差有抽样平均数与总体平均数之差(x-X)、抽样成数与总体成数之差(p-P)。
抽样误差既是一种随机性误差,也是一种代表性误差。说其是代表性误差,是因为抽样调查是以样本代表总体,以样本综合指标代替总体综合指标。利用总体的部分资料推算总体时,不论样本选取多么公正,设计多么完美,也只是一部分单位而不是所有单位,因此产生误差是无法避免的。说其是随机性误差,是指按随机性原则抽样时,由于抽样的不同,会得到不同的抽样指标值,由此产生的误差值也就各不相同。抽样误差中的代表性误差是抽样调查本身所固有的、无法避免的误差,但随机性误差则可利用大数定律精确地计算并能够通过抽样设计程序进行控制。
抽样误差不包括下面两类误差:一类是调查误差,即在调查过程中由于观察、测量、登记、计算上的差错而引起的误差;另一类是系统性误差,即由于违反抽样调查的随机性原则,有意抽选较好单位或较坏单位进行调查而造成样本的代表性不足所引起的误差。这两类误差都属于思想、作风、技术等问题,在实际调查中是可以防止和避免的。
(二)影响抽样误差大小的因素
1.总体各单位标志值的差异程度
在其他条件给定的情况下,总体内各单位标志值的差异程度越小,或总体的标准差越小,抽样误差就越小。反之,抽样误差就越大。
2.样本单位的数目
在其他条件不变的情况下,样本单位数目的多少与抽样误差的大小成反比。也就是说,样本单位数越多,抽样误差就越小;样本单位数越少,抽样误差就越大。当样本单位数扩大到与总体单位数一样多时,也就相当于普查,抽样误差也就不存在了。
3.抽样的组织方式
抽样的组织方式不同,抽样误差的大小也不相同。一般来说,简单随机抽样比分层、分群抽样误差大,重复抽样比不重复抽样误差大。
(三)减少抽样误差的做法
抽样误差是抽样调查所固有的。抽样误差越大,抽样推断的代表性就越差。因此,在进行抽样调查时,就要研究如何控制和减少抽样误差。考虑到影响抽样误差的因素,控制和减少抽样误差从以下几个方面着手:
1.正确确定样本数目
如果总体各单位标志值差异大,则需抽取的样本数应该多一些。此外,抽取的样本数目的多少与调查成本有密切的关系,样本数越多,费用就越高。所以确定样本数要综合考虑对抽样误差的允许程度、总体的差异性和经济效益的要求等因素。
2.确定合适的抽样方式
选择正确的抽样方式,有利于使抽取的样本能够真正代表样本的总体特征,从而减少误差。对抽样方式的选择,要根据调查的目的和要求以及调查所面临的内外部条件进行权衡。
3.加强对抽样调查的组织领导,提高抽样调查工作的质量
要用科学的态度对待抽样,特别是要由专门人才或经过严格培训的人员承担抽样调查工作。抽样方法要适当,工作程序要规范,严格按照所选用的抽样方法的要求进行操作,确保整个抽样工作科学合理。
(四)抽样误差的测定
从总体中具体抽取样本单位的方法有两种,即重复抽样和不重复抽样。重复抽样又称回置抽样,是指样本抽出后再放回去,有可能第二次再被抽中。而不重复抽样又称不回置抽样,是指样本抽出后不再放回,也就没有再被抽中的机会。实践中大多采用不重复抽样。下面分别介绍一下重复抽样和不重复抽样下的误差测定。
1.重复抽样下抽样误差的计算公式
(1)平均数的抽样误差,其计算公式为
μx
式中:μx――抽样平均数误差;
σ2――总体方差(σ2一般要经过换算求得,也可根据经验估算);
n――样本单位数。
(2)成数的抽样误差,其计算公式为
μp
式中:μp――成数抽样误差;
p――成数;
n――样本单位数。
2.不重复抽样下抽样误差的计算公式
(1)平均数的抽样误差,其计算公式为
μx(1-)
式中:μx――抽样平均数误差;
σ2――总体方差;
n――样本单位数;
N――总体单位数;
(1-)――修正系数。
(2)成数的抽样误差,其计算公式为
μp(1-)
式中:μp――成数抽样误差;
p――成数;
n――样本单位数;
N――总体单位数;
(1-)――修正系数。
“例4-4”某企业调查职工每月的消费支出,已知职工平均每人每月消费支出的标准差为30元。如果从全体职工20000人中抽取160人进行抽样调查,试计算:
(1)重复抽样下该企业职工月平均消费支出的抽样误差。
(2)不重复抽样下该企业职工月平均消费支出的抽样误差。
解:(1)μx=30/12.6491≈2.3717
(2)μx(1-)≈2.2749
“例4-5”某企业生产的产品,按正常生产经验,合格率为90%,现从5000件产品中抽取50件进行检验,在重复抽样和不重复抽样条件下分别计算合格率的抽样误差。
解:根据题意,在重复抽样条件下,合格率的抽样误差为
μp4.24%
在不重复抽样条件下,合格率的抽样误差为
μp(1-)×(1-)4.22%
从以上计算公式和实际计算结果可以看出,在其他条件相同的情况下,采用不重复抽样,其抽样误差比重复抽样的抽样误差小,相差的程度取决于修正系数(1-)的大小。当总体单位数量庞大时,重复抽样的抽样误差与不重复抽样的抽样误差很接近,差别不大,此时,为了简化计算,可以使用重复抽样的抽样误差计算公式来代替不重复抽样的抽样误差计算公式。
四、抽样数目的确定
抽样数目(也称样本容量)是指一个样本中所包含的样本单位数量。在随机抽样时必须确定必要的样本数。样本数过多,浪费人力、物力、财力和时间;样本数过少,会影响调查结果的精确度,造成较大误差,所以必须确定能够反映总体特征的样本数目。
(一)影响抽样数目的因素
1.总体中各单位之间标志值的变异程度
总体中各单位之间标志值的变异程度愈大,需要抽选的样本数目愈多;反之,需要抽选的样本数目愈少。
2.允许误差的大小
允许误差又称极限误差或最大可能误差,是指抽样误差的范围。允许误差以符号Δ表示,其计算公式为
Δtμ
式中:t――概率度,是指扩大或缩小抽样误差范围的倍数;
μ――抽样误差;
Δ――允许误差。
允许误差大,抽样数目可以少一些;允许误差小,抽样数目可以多一些。允许误差的大小要根据调查的要求和条件来确定,一般来说,调查准确度要求高,力量强,费用充足,允许误差要小一些;反之可取大一些。
3.抽样方法的不同
不同的抽样方法也会影响抽样数目的多少。一般来说,随机抽样比非随机抽样样本数目少一些,不重复抽样比重复抽样样本数目少一些。
(二)必要抽样数目的确定
必要抽样数目的计算公式可根据允许误差公式进行推导而来。以下是简单随机抽样方式下,必要抽样数目的计算公式。
1.平均数指标重复抽样数目的计算公式
平均数指标重复抽样数目的计算公式为
n式中:n――样本单位数;
σ2――总体方差;
t2――概率度平方;
Δ2x――平均数允许误差平方。
2.平均数指标不重复数目的计算公式
平均数指标不重复数目的计算公式为
n式中:N――总体单位数;
n――样本单位数;
t2――概率度平方;
σ2――总体方差;
Δ2x――平均数允许误差平方。
3.成数指标重复抽样数目的计算公式
成数指标重复抽样数目的计算公式为
n式中:n――样本单位数;
t2――概率度平方;
p――成数;
Δp――成数允许误差。
4.成数指标不重复抽样数目的计算公式
成数指标不重复抽样数目的计算公式为
n式中:t2――概率度;
N――总体样本数;
P――成数;
ΔP――成数允许误差;
n――抽样数目。
t值小,允许误差范围就小,把握程度就大;反之把握程度就小。因为在抽样调查时,每100次抽样中有95.45次得到正负误差不会超过2,其余4.55次则会超过2,其概率度t值为2,把握程度(即可信度)为95.45%,它们之间的相互关系(都是一些常用到的数值,仅供参考使用)。
“例4-6”某食品厂要检验本月生产的10000袋某产品的质量,根据以往的资料,这种产品每袋重量的标准差为25克。如果要求在95.45%的置信度下,平均每袋重量的误差不超过5克,应抽查多少袋产品?
解:由题意可知N10000,σ25,Δx5,根据置信度1-α95.45%,在重复抽样的条件下,应抽查的袋数为
n100(袋)
在不重复抽样条件下,应抽查的袋数为
n≈99(袋)
由计算结果可知,在其他条件相同的情况下,重复抽样所需要的样本容量大于不重复抽样所需要的样本容量。
在计算样本容量时,必须知道总体的方差,而在实际抽样调查前,总体的方差往往是未知的。在实际操作时,可以用过去的资料,若过去曾有若干个方差,应该选择最大的,以保证抽样估计的精确度;也可以进行一次小规模的调查,用调查所得的样本方差来代替总体的方差。
五、点估计和区间估计
抽样调查可以用样本指标来估计、推断调查总体指标,推断的方法有点估计和区间估计两种。
(一)点估计
点估计就是以样本指标作为总体指标的估计值,不考虑抽样误差,仅作近似的估计。
这种估计的方法存在明显的不足,不考虑抽样误差和确认估计的准确程度,是一种比较简单而粗糙的估计,只能作为对事物认识上的大致判断,不是精确的估计。
“例4-7”某地区开展当地职工的年收入调查,当地职工人数为200000人,抽样调查1000人,得出的样本平均数为30000元,即调查的这1000人的年平均收入为30000元,试问当地职工年平均收入是多少?当地职工的年总收入又是多少?
解:当地职工年平均收入为30000元
当地职工的年总收入为30000×200000=6000000000(元)=60(亿元)
(二)区间估计
区间估计是在一定的概率把握程度下,根据抽样指标和抽样误差范围,对总体指标估计值落入的区间范围做出的估计,计算公式为
x±Δx;p±Δp
上限和下限之间都视为正确的区间值。区间估计分两种,一是用样本的平均数推算估计总体的平均数;二是用样本的成数推算估计总体的成数。如果要估计总体总量指标,还需要用平均数的区间或者成数的区间与相关的总体单位数相乘。总之,区间估计与点估计相对比更加正确、可靠和灵活,有严密的数理统计学理论作为推断的理论基础,是比较科学的推算方法。