抽样讲义
洪永泰 台湾大学政治学系
壹、导论
抽样的意思顾名思义,就是从全体之中抽取一部分个体做为样本,借着对样本的观察,再对全体做出推论。譬如说,我们想知道某个地区七岁到十二岁的小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或是我们的商品检验单位想要知道有一批货柜的棒球是不是每一个都符合使用标准;或是水库管理当局想要知道到底水库里有多少鱼。在理论上,我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。
1、为什么要抽样?
(一)因为要节省经费,(二)因为要节省时间。这两个理由很容易了解,如果要访问全体,
则所耗费的时间和经费是相当可观的,而且有许多调查性质具有时间性,如果拖得太长就会失去时效。例如想知道学生们对某一项考试的反应如何,就非得打铁趁热,在短时间内完成调查不可。(三)因为要提高资料的准确性,这是由于全体调查牵涉到相当大量而又繁杂的作业,动员不少人力、物力和行政管道,增加许多犯错的机会,导致取得的数据质量不佳,而抽样调查工作涉及的作业负担相对地轻松许多,参与人员因为较少,好控制,使得数据的品质也较好。事实上联合国的专家们也发现,在一些教育较不发达的地区,人口普查的资料就不如抽样调查来得好。(四)因为要取得较详尽的数据,譬如我们想要知道七岁到十二岁小孩的压岁钱流到那里去,如果进行全体调查的话,由于人力和物力的限制,我们只能针对每一个小孩取得一点点资料,但是如果是抽样调查,则因为调查对象不多,反而可以很从容的取得细节资料提供分析之用。每十年一次的人口普查,除了全体都查之外,总是还要再抽取少数样本做更详尽的访问就是这个道理。(五)因为要减轻损失,例如汽车车身的耐撞试验,罐头食品的安全检查,或是电灯泡寿命的质量管理检验。这些调查本身就具有破坏性,总不能每部汽车都撞一撞,或是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目还要控制到越少越好。
二、机率抽样与非机率抽样
在谈抽样设计之前,让我们先厘清一下这里所谈的抽样是指机率抽样,也就是说:「在完整定义的母体之中,每一个个体都有一个不为零的中选机会」。凡不属于这个定义范围的都是非机率抽样。常见的非机率抽样方法,综合Kish(1965)网上买咖啡和Cochran(1977)的说法,有下列几种:
(一)偶遇样本(haphazard sample)或便利抽样(convenient sample),是碰到谁就选谁的抽样,做研究的人并不在乎调查对象是否有代表性,例如生物学家解剖青蛙,心理学家观察人们对声光刺激的反应,医生征求自愿者做药物反应的实验等等。
(二)立意选样(purposive sampling)或判断选样(四级考试报名judgment sampling),这是经由专家主观判断,立意选定他们认为「有代表性」的样本来观察。例如人类学家或社会学家会选定一个或几个村庄来代表乡村地区,交通专家选定几个路口来计算交通流量,教育专家选定几个学校班级的学生来代表所有的学生等等。
(三)自愿样本(volunteer subjects),听任自动送上门来的人组成样本群。
(四)配额选样(quota sampling),依照母体的人口特征按比例分配样本数,在配额之
内进行非机率抽样,也就是把调查对象依照特征分类后,根据各类别的百分比每类立意选样至额满为止。例如某个地区七岁到十二岁的小孩之中,约有一半是男的,另一半是女的,有四分之一住在都市,四分之三住在乡村。如果样本数是一千,则根据上述各类别的比例先算出各种特征交叉汇编后每一组合的配额,在配额内立意选出符合该类别的人即可。这样做可以节省时间和资源,而又维持了样本的「代表性」。
(五)雪球抽样(snowballed sample),先找到原始受访者,然后再从受访者所提供的信息找到其它受访者。
以上这些非机率抽样方法由于没有机率做推论基础,大多只能做描述性的用途,而不能对全体做科学的估计或验证理论的假设检定,因为它们提不出确切的误差数据,无法计算样本数据的准确程度。
贰、抽样的基本原理
假设某个地区七岁到十二岁的小孩共有两百四十万人,如果我们要抽取一千个人来调查有
关他们的压岁钱收入和支出情形,怎么抽才会「准」呢?用常识来判断,总要有一些都市人,一些乡下人,要男生,也要女生,要富豪子弟,也要清寒子弟等等。这些顾虑都是担心万一抽得不好,变成瞎子摸象,整个推论就失效了。
在谈抽样原理之前,首先让我们先熟悉几个名词和符号。
1、资料的中心点和离散程度:平均数和标准差
大家都知道平均数是什么,它是所有个案观察值的总和除以累加的个案数,也就是我们通常说的一组资料的中心点。我们把全体的平均数写成μ(念成mu)。它的定义是:
= (x1 + x2 + …+ xN) / N ……………………………………(2.1)
式中N是全体的总个案数,xi 是第 i 个个案的观察值。
其次一个名词是标准差σ(念成sigma),是衡量一组资料中各个点和中心点之间的「标准距离」。也就是衡量一组数据中各点的集中或离散程度。它的定义是:
………………………(2.2)
敏感的意思从定义上来看,它是每一个点和中心点μ的差,平方后累加起来取平均数,再开根号还原。平方的原因是要避免各点和中心点的差正负相抵。
二、正态分布和中央极限定理
假设这个地区两百多万个七岁到十二岁小孩的压岁钱平均数是μ,标准差是σ。现在我们要抽取一千个样本,从样本观察值来估计μ,一个很自然的选择是用样本的平数来估计,让我们把样本的平均数写成(念成XBar等腰三角形有几条对称轴,Bar是横杠的意思),它的定义是:
………………………………………… (2.3)
式中n是样本数。
外语翻译如果我们使用一套机率抽样的作业程序抽出一千人,取得他们的观察值后会得到一个平均数,把它写成,表示是第一次抽样得到的结果。现在把整个作业重做一遍,我们可能得到不同的一千个人,因为在机率抽样之下每个人都有中选的机会,重新做一遍就可能抽到不同的人。我们把第二次抽样的结果写成。当然这个不一定会和相同,就像两颗子弹不会射中相同的一点一样。如此一直做下去,如果我们做K次的话,会有一共有K个样本平均数。在数学上有个中央极限定理,它的内容是:在样本数足够大的情况下,如果把这K个排起来,它们会形成正态分布,而这些样本平均数的平均数会等于μ,这些样本平均数的标准差会等于。
什么是正态分布呢?它是一种钟形,以平均数为中心、左右对称的图形分布。譬如说,全校同学的身高由低而高排列起来,会有少数人很矮或很高,大部分人集中在中间,而越靠近平均身高的人会越多,形成像钟形的样子。事实上,我们可以利用正态分布的特性计算出身高在某一高度之间者到底有多少人。这是因为根据正态分布,有68%的人会落在平均数左右一个标准差距离之内,有五一假期作文400字左右>yiguo95%的人会落在平均数左右两个标准差之内,而有99.7%的人会落在平均数左右三个标准差范围之内的缘故。
三、点估计、区间估计、和信赖系数
根据中央极限定理,我们知道如果做很多次抽样的话会得到很多个,而这些排起来会形成正态分布,它们的平均数是μ,标准差是。换句话说,有68%的会落在之间,有95%的会落在之间,有99.7%的会落在之间。
把上述的说法稍为转换一下就变成:有68%的会包含着μ,有95%的会包含着μ,有99.7%的会包含着μ,而这就是抽样和估计最根本的道理。我们从全体之中以机率抽样方式抽取n个样本,取得样本观察值,计算它们的平均数,然后加减两倍的得到一组上下区间,然后说:我们有differentiated95%的信心,这个上下区间一定会包含着全体的平均数μ。如果我们仍不放心的话,可以用加减三倍的,那么这组区间包含着μ的信赖度就有99.7%。
用样本平均数来估计全体的平均数μ称为点估计。点估计命中目标的机会是很低的,因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事,所以我们最好不要用点估计,而要用区间估计。根据中央极限定理和正态分布的特性我们知道这个区间包含着全体平均数μ的机会有68%,的机会有95%,而的机会有99.7%!真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确的程度,而这68%,aspectratio95%,99.7%就称做是信赖系数。说得更确切一点,以95%信赖系数为例,它的意思是:如果我们进行一百次独立的抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95fulltest个正确地包含着全体平均数μ。实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着μ的机会是95%,信赖系数越高,估计的区间也就越宽,这是高信赖系数所必须付出的代价。譬如我们估计全国七岁到十二岁小孩的压岁钱平均数是在10元到1000元之间。这个估计即使有99.7%的信赖度也没有什么用,因为这段区间实在太宽了,如果是100元到120元之间,而且信赖系数是99.7%,这就是个非常好的估计。我们学习抽样方法就是要使这个信赖区间尽可能的缩小。