抽样调查的样本容量的确定方法
摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和
效益。单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样
本容量地确定。样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公
式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确
定。
关键词:样本容量;抽样调查;抽样误差;极限误差
抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用
概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。根据抽
选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。等概率抽样又
称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随
机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能
出现的误差可以从概率意义上加以控制。样本是从总体中抽出的部分单位的集
合,样本中所包含的单位数被称为样本容量,一般用n表示。确定样本容量是制
定抽样调查方案中的一个非常重要的环节。
1.确定样本容量的必要性
1.1样本容量大小影响抽样估计的精确度
抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。调查
结果相对于总体真实值的精确度与样本容量直接相关。样本容量越大,抽样误差
相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而
影响抽样估计的精确度。
1.2样本容量大小影响抽样调查的成本和效益
样本量的设计通常受到研究经费及调查时间的限制。根据数理统计规律,样
本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误
差只是样本量相对增长速度的平方根递减。若样本容量过大,调查单位增多,不
仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效
性,从而不能充分发挥抽样调查的优越性。
因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应
在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要
的抽样数目。
2.影响必要样本容量的主要因素
影响样本容量的因素是多方面的,在抽样调查总体、调查费用和调查时间既
定的情况下,为确定最佳的样本容量,应首先分析影响样本容量的因素。从理论
上说,影响样本容量的因素有以下几个方面:
2.1单位标志变异程度
单位标志变异程度一般用方差2或成数方差P(1-P)的大小来表示。在其他
条件不变的情况下,为了达到同样的研究目的,总体单位标志的变异程度大,样
本容量应越大;反之,总体单位标志的变异程度越小,则样本容量就应越少。二
者成正比关系。
2.2抽样极限误差
抽样极限误差又叫允许误差,是指在一定的把握程度下保证样本指标与总体
指标之间的抽样误差不超过某一给定的最大可能范围。在抽样推断中,需要把这
个误差控制在一定的范围之内。抽样平均数极限误差一般用
x
表示,抽样成数
极限误差用
P
表示。在其他条件不变的前提下,所允许的抽样极限误差越小,
即抽样估计的精确度要求越高,样本容量应越大;所允许的抽样极限误差越大,
所需的样本容量就越小。二者成反比关系。
2.3抽样推断的可靠度
抽样推断的可靠度是指总体所有可能样本的指标落在一定区间的概率度,即
允许误差范围的概率保证程度。概率度用
2
Z表示,即置信水平1的统计量,
一般简写为t。在其他条件不变的情况下,抽样估计所要求的可靠程度越高,即
概率保证程度越高,要求样本含有的总体信息就越多,只有增加样本容量才能满
足高精确度的要求;反之,概率保证程度越低,所需的样本容量就越小。二者成
正比关系。
2.4抽样类型和方法
概率抽样的主要类型有简单随机抽样、系统随机抽样、分层随机抽样、整群
随机抽样、多阶段随机抽样等。在简单随机抽样中,根据同一单位是否允许重复
抽取方式的不同,抽样方法可分为重复抽样和不重复抽样。由于在同样的条件下,
不同的抽样方式会产生不同的抽样误差,因此,样本容量也应有所不同。
一般来说,分层随机抽样和系统随机抽样的样本容量可定得小些,若用简单
随机抽样和整群随机抽样方式,抽样的样本容量就要定得大些。至于抽样方法,
由于不重复抽样的误差小于重复抽样的误差,因此,不重复抽样的样本容量可比
重复抽样的样本容量小些。
3.不同抽样方式下的样本容量确定
从上述分析中可以看出,影响样本容量的因素是多方面的,但必要样本容量
是根据抽样误差、抽样极限误差和概率度推算出来的,在不同抽样方式下,计算
公式有所差异。
3.1简单随机抽样的样本容量
简单随机抽样是指按照随机原则从总体单位中直接抽取若干单位组成样本。
简单随机抽样中分为重复简单抽样和简单不重复抽样,因此,简单随机抽样的样
本容量计算公式包括两种。
3.1.1重复抽样时的样本容量
在重复抽样条件下,样本容量的计算公式为:
222tn或22)1(PPtn。
在以上公式中,n代表样本容量,t代表概率度
2
Z,代表极限误差,2
代表总体方差,P(1-P)表示成数方差。
3.1.2不重复抽样时的样本容量
在不重复抽样条件下,样本容量的计算公式为:
22222tNtNn或)1()1(222PPtNPPtNn
上式中,N代表样本总数。
3.2分层随机抽样的样本容量
分层随机抽样,也称类型随机抽样,是指首先将调查对象的总体单位按照一
定的标准分成各种不同的类别(或组),然后根据各类别(或组)的单位数与总体单
位数的比例确定从各类别(或组)中抽取样本的数量,最后按照随机原则从各类(或
组)中抽取样本。
对于分层抽样,在总的样本量一定时,一个重要的问题是各层应该分配多少
样本量。实际工作中有不同的分配方法,可以按对各层进行常数分配,也可以按
各层单位数占总体单位数的比例分配,还可以采用在总费用一定条件下使估计量
方差达到最小的最优分配等,其中等比例分配是较为常用的方法。
分层抽样是对每一组抽样,不存在样本组间误差,抽样平均误差取决于各组
内方差的平均水平,即以各组样本单位数为权数,计算各组内方差的平均数。因
此可用组内方差平均数计算出抽样平均误差。
3.2.1重复抽样时的样本容量
在重复抽样条件下,样本容量的计算公式为:
222tn或22)1(PPtn
在以上公式中,2
是组内平均方差,)1(PP代表成数的平均组内方差。
nn
ii
22,其中
i
n代表各组样本单位数,2
i
代表各组的组内方差,n代表
样本总数。
3.2.2不重复抽样时的样本容量
在不重复抽样条件下,样本容量的计算公式为:
22222tNtNn或)1()1(222PPtNPPtNn
3.2.3各层样本量的确定
当样本容量n确定之后,各层应抽取的样本单位数可采用等比例法进行分
配,计算公式为:
N
nN
ni
i
上式中,
i
n为第i层应抽取的样本数,n为样本容量,
i
N为第i层样本数,
N为总体单位数。
3.3整群随机抽样的样本容量
整群随机抽样又称聚类抽样,是把总体先分为若干个子群,然后抽取若干群
作为样本单位的一种抽样方式。整群抽样是对选中的群进行全面调查,所以只存
在群间抽样误差,不存在群内抽样误差,因此抽样平均误差可根据群间方差推算
出来。由于整群抽样一般是不重复抽样,故应按不重复抽样计算必要的抽样群数。
由整群抽样的极限误差和抽样标准误差公式导出样本容量计算公式为:
22222
rr
tNtNn或)1()1(222
rrrr
PPtNPPtNn
上式中
r
P代表成数的群间方差,2
r
代表群间方差,
r
xx
i
r
2
2
)(
,其中
i
x是第i群样本平均数,x是全样本平均数,r是抽取的群数。
3.4等距抽样样本容量的确定
等距抽样也称为系统抽样、机械抽样,是将总体中各单位按一定顺序排列,
根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个
单位的一种抽样方式。根据总体单位排列方法,等距抽样的单位排列可分为三类:
按有关标志排队、按无关标志排队以及介于按有关标志排队和按无关标志排队之
间的按自然状态排列。
3.4.1无关标志排队的等距抽样
若对总体采用按无关标志排队的等距抽样时,可采用简单随机抽样的公式确
定等距抽样的样本容量。由于等距抽样一般都是不重复抽样,应采用在不重复抽
样条件下的样本容量的计算公式。
3.4.1有关标志排队的等距抽样
若对总体采用按有关标志排队的等距抽样,则样本容量的确定,可采用分层
抽样的样本容量公式确定样本容量。但应注意有序系统抽样的样本容量计算所需
的平均组内方差应根据以往的资料作出估计。
4.确定样本容量的相关问题
4.1有关总体方差的问题
样本容量的确定是在调查之前进行的,这样总体方差(或样本方差)一般是未
知的。在实际工作中往往利用有关资料代替。如果在本次调查之前,曾搞过同类
问题的全面调查,可用全面调查的有关资料代替;在进行正式调查之前,组织两
次或两次以上试验性抽样,用试验样本的方差来代替;成数方差在完全缺乏资料
的情况下,可用成数方差的极大值0.25(P=0.5)来代替。
4.2一次调查满足多项需要
应用公式计算的样本容量是最低的,也是最必要的样本容量。有时在进行抽
样调查时,一次调查要同时满足平均数和成数两个方面需要,这样根据样本容量
计算公式得出的必要样本容量可能不相等。为了同时满足两个推断的要求,一般
应选用其中较大的样本单位数作为样本容量。
4.3确定样本容量的经验法则
在抽样调查中,除上述利用公式来计算样本容量,还有一种常用的方法,即
采用经验法则。经验法则是建立在过去抽取满足统计方法要求的样本量所累积下
来的经验。使用这个方法时很少需要统计方法知识,但是得出的样本大小很接近
统计方法计算出的结果。在采用经验法则时,有关样本量大小的一项原则是:总
体越小,要得到精确样本,即有较高概率得出与总体相同结果的样本,抽样比率
就要越大。较大的总体能够使较小的抽样比得出同样好的样本。这是因为随着总
体人数的增长,样本大小的精确性会随之增加。
对于规模较小的总体(1000人以下),研究者需要比较大的抽样比率(大约30%)
为要有较高的精确性,这时需要大约300个样本;对于中等规模的总体(如10000
人),要达到同样的精确度,抽样比率为10%或大约1000个样本量就可以了。就
大规模的总体(超过150000)而言,抽样比率为1%或大约1500个样本量就能得出
正确的结果。如果是非常大的总体(超过1000万)。研究者可以使用0.025%抽
样比或者大约2500个样本,就能够得出精确的结果。当抽样比率非常小时,总
体大小的影响力就不那么重要了。从2亿总体中抽取一个2500左右的样本,与
从1000万总体中抽出同样规模的样本,它们的精确程度是完全相同的。
参考文献
[1]肖彦花,马知遥.统计学[M].长沙:国防科技大学出版社,2004.
[2]胥学跃,张樊主编.统计学基础[M].北京:北京邮电大学出版社.
[3]汤伟伟.走向营销第一步[M].北京:首都师范大学出版社,2009.
[4]李英枫.新编统计学[M].北京:北京大学出版社,2008.
[5]赵振伦.社会经济统计学原理[M].大连:东北财经大学出版社,1997.
[6]张晓庆,王玉良,王景涛.统计学[M].北京:科学出版社,2007.
[7]高巍.统计学原理[M].北京:中国市场出版社,2009.
[8]龚曙明.应用统计学(第2版)[M].北京:清华大学出版社,2005.
[9]王怀伟.统计学教程[M].北京:清华大学出版社,2004.
本文发布于:2022-12-03 20:58:43,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/46672.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |