卫生统计学
统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计
描述和统计推断(参数估计和假设检验)】。
总体Population:根据研究目的所确定的同质观察单位的全体;
样本Sample:从总体中随机抽取部分观察单位,其实测值的集合;
同质(homogeneity):指同一总体中个体的性质、影响条件或背景相同或非常相近。个体的同质性是构成
研究总体的必备条件
变异(variation):指在同质的基础上各观察值之间的差异。是事物的个体反映,生物的重要特征;使统计
学有特殊的用武之地。个体差异来源于一些未加控制或无法控制,甚至不明因素所致的随机误差。
参数(parameter):由总体计算出来的量,刻画了总体特征,如总体均数、总体标准差;
统计量(statistics):由样本计算出来的量,反映了样本的特征,如样本均数、样本标准差;
在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎
总是随着样本而变的。
参数是总体指标的总称,用于描述总体特征的指标,由总体观察值计算而来。
统计量是样本指标的总称,用于描述样本特征的指标,由样本观察值计算而来。
定量变量
离散型:只能取整数值,如一天的门诊人数、一年内的新生儿数。
连续型:可取任何实数,如身高、体重等。
定性变量
分类变量:二分类:性别(男女)、疾病(有无)
多分类:血型(A、B、O、AB)
有序变量或等级变量:实验室检验指标(–、±、+、++、+++)满意程度、
每一事情的每一种可能结果称为随机事件或偶然事件,简称事件。
概率是描述随机事件发生可能大小的一个度量指标。数值介于0与1之间波动,常用符号P表示。
在一定条件下,P=1时,事件肯定发生,称为必然事件。P=0时,事件肯定不发生,称为不可能事件。
数理统计学中的大数定理表明:当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向
于一个常数p:随机事件A发生的概率(Probability)。概率描述了随机事件发生的可能性的大小。是一种
参数。
小概率事件:医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。
P<=0.05或P<0.01表示在100次实验中事件发生的可能有5次或1次,那在一次随机实验或观察中该事
件发生的可能性很小,可以视为很可能不发生
小概率原理:小概率事件并不表示不可能发生,但在某一次试验中该事件发生的可能性很小,可视为很可
能不发生。
★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a参数估计是指利
用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预
先设定的可信度(1-α),来确定总体均数的所在范围】。b假设检验:是以小概率反证法的逻辑推理来判
断总体参数间是否有质的区别。
变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。
资料按性质可分为计量资料、计数资料和等级资料。
定量资料的统计描述
1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用
直条图表达。
2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些
特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计
值。
★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。
(1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,
用于确定医学参考值范围,P
50
就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资
料或近似正态分布资料;几何均数:对数正态分布资料,适用于原始观察值分布不对称,但经对数转换后
呈对称分布的资料,如对数正态分布资料。(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各
种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。
(2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种
分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。
方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结
合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异
程度的比较。
标准差的应用:①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本
含量计算标准误。
定性资料的统计描述
1定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过
频率分布表描述其分布特征。
2常用相对数类型:频率型、强度型和相对比型指标。
指标频率型指标强度型指标相对比型指标
概念近似反映某一时间出现概率单位时间内某现象的发生频两个有关联的指标A和B之比
计算
公式
A/B
有无
量纲
无有可有、可无
取值
范围
【0,1】可大于1无限制
本质大样本时作为概率近似值
分子式分母的一部分
频率强度,即概率强度的近
值
表示相对于
B
的一个单位,
A
有多少个单位
A
和
B
可以是绝对数、相对数和平均数
A
和
B
的量纲可相同也可不同
A
和
B
互不包含
相对比:A、B两指标可以是绝对数、相对数或平均数。最常见的相对比是人口学中的男女性别比,流行病
学中的相对危险度RR=P
1
/P
0
也是相对比指标。
3应用相对数应该注意:①防止概念混淆,避免以比代率的错误现象;②计算相对数时分母应有足够数量,
如果例数较少会使相对数波动较大,应该使用绝对数;③正确的计算频率(或强度)指标的合计值。当分
组的资料需要合并起来估计频率(或强度)时,应将各组频率的分子相加作为合并估计的分子,各组的分
母相加作为合并估计的分母;④频率型指标的解释要紧扣总体和属性;⑤相对数间比较要具备可比性:要
注意观察对象是否同质、研究方法是否相同、观察时间是否一致、观察对象内部结构是否一致、对比不同
时期资料应注意客观条件是否相同;⑥正确进行相对数的统计推断:在随机抽样的情况下,从样本估计值
推断总体相对数应该考虑抽样误差,因此要进行参数估计和假设检验。
4医学人口统计资料主要来源为日常工作记录(报告单、卡、册)、统计报表、人口调查(普查和抽样调查)。
5描述人口学特征的常用指标一般有人口总数和反映人口学基本特征的某些指标。人口学的基本特征包括性
别、年龄、文化、职业等,最常用来描述人口结构的是性别和年龄。人口学特征指标:老年人口系数、少
儿人口系数、负担系数、老少比、性别比。
6有关生育的常用指标有出生率、生育率和人口再生产指标。测量生育水平的统计指标:粗出生率、总生育
率、年龄别生育率、总和生育率。测量人口再生育的统计指标:自然增长率、粗再生率和净再生率。
7常用的死亡统计指标有:粗死亡率、年龄别死亡率、婴儿死亡率、新生儿死亡率、围生儿死亡率、死因别
死亡率、某病病死率和死因构成等。
8疾病统计资料主要来源于:疾病报告和报表材料、医疗卫生工作记录、疾病专题调查资料。
9⑴标准化:两个率或多个率之间进行比较时,为消除内部构成不同的影响,采用统一的标准,对两组或多
组资料进行校正(调整),计算得到标准化率后再做比较的方法,称为~。其目的是统一内部构成,消除混
杂因素,是资料具有可比性。
⑵应用标准化法的注意事项:
1标准化法的应用范围很广。当某个分类变量在两组中分布不同时,这两个分类变量就成为两组频率比较
的混杂因素,标准化的目的是消除混杂因素。
2标准化后的标准化率,已经不再反映当时当地的实际水平,只表示相互比较的资料间的相对水平。
3标准化法实质是找一个标准,使两组得意在一个共同的平台上进行比较。选择不同的标准,算出的标准
化率也会不同,比较的结果也未必相同,因此报告比较结果时必须说明所选用的标准和理由
④两样本标准化率是样本值,存在抽样误差。比较两样本标准化率,当样本含量较小时,还应作假设检验。
10常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
(1)绝对增长量:是说明事物在一定时期增长的绝对值,可分为:累计增长量(报告期指标与基线期指标
之差)和逐年增长量(报告期指标与前一期指标之差)。
(2)发展速度与增长速度:均为相对比,说明事物在一定时期的变化,可计算定基比(即报告期指标与基
线期指标的比:a
n
/a
0
)和环比(报告期指标与其前一期指标之比:a
n
/a
n-1
)。增长速度表示的是净增长速度,
增长速度=发展速度-100%。
(3)平均发展速度与平均增长速度:用于概括某现象在一段时期中的平均变化。平均发展速度是发展速度
的几何平均数,平均发展速度=
n
a
a
n
0
,平均增长速度=平均发展速度-100%。
动态数列(dynamicries)按照一定的时间顺序,将一系列描述某事物的统计指标依次排列起来,就可以
观察和比较该事物在时间上的变化和发展趋势,这些统计指标可以为绝对数,相对数或平均数。
动态数列分析是建立在相对比基础上,采用定基比和环比两种方式。
11统计表和统计图是描述资料特征、呈现统计分析结果的重要工具。统计表结构标题、标目、线条、数字
和备注。
12常用统计图用途:①条图:适用于相互独立的资料(资料有明确分组、不连续);②百分条图、圆图适
用于构成比资料;③线图适用于连续性资料,表达事物的动态变化(绝对差值);半对数线图适用于连续
性资料,表达事物的发展速度(相对比);④直方图用于描述连续变量的频数分布;⑤散点图适用于双变
量资料,用点的排列趋势和密集度表示两变量的相关关系。
统计表的结构:表号、标题、标目、线条、数字、备注
1、标题
标题一般写在表格的上方中央,内容应包括时间、地点、主要事件,要求用最少的文字
说清楚,标题要简明,不宜超过15个字,确切反映研究的内容,题末不用标点符号。
存在的问题:题目不明确,过于简单或繁琐。
2.标目
横标目:按时间前后或数量大小和事情的重要性等顺序排列。将主语置于横标目。
纵标目:把谓语置于纵标目,注明单位。
注意:标目的层次要清楚,不要太多、太复杂。
存在的问题:标目不明确,逻辑性不强等现象
3.线条
三线表:顶线、底线、中线
统计表中只有横线,无竖线和斜线。
4.数字
一律用阿拉伯数字。同一列的小数位数应一致,且位次对齐。
表格中不应有空格,暂无记录或未记录用“···”(点号)表示,无数据用“—”表示,这两种情况
都不能填“0”。
5.备注不应写在表中,在数字上角用“*”号标出,文字叙述写在表的下方。
6.统计表的种类
简单表:表中只有一个分组变量,一般作为横标目,而纵标目就是统计指标名称。
组合表:表中包含两个或两个以上分组变量,一般把其中主要的和分项较多的一个作为横标目,而
其余的则安排在纵标目上。
统计图(statisticalchart)
将统计数值或统计指标用图形的方式表达
作用:它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象地表达出来,更直观
地反映出事物间的数量关系,更易于比较和理解。
1.制图原则和要求
选图:按照资料的性质与分析目的恰当地选用图形。
标题:以扼要说明统计图的内容(时间、地点等),位于图的正下方。
图例:对图中的不同事物应通过不同的图案或颜色加以区别,并附图例。图例位于图形与标题之间。
坐标轴:
横轴的方向应自左至右;纵轴的方向应自下而上。横轴与纵轴均应有标目。
表示量的数轴应标注合适的原点、尺度、单位;表示分组的轴应标注组别。
为美观考虑,统计图的轮廓以高:宽=7:10为宜(近似黄金分割的比例)。
1.直条图(bargraph)
用等宽直条的长短来表示各独立指标大小。
适用资料:性质相似而不连续的资料,用于表达不连续指标的数值大小。
有单式和复式两种。
坐标轴:纵轴为数值,必须从“0”开始,否则会改变各对比组间的比例关系;
横轴为观察项目,横轴各直条一般按统计指标由从大到小,从小到大,或按时间顺序排列。
直条:应等宽,等间距。复式直条图在同一观察项目的各组之间无间距。
2.百分条图(percentbarchart)
以长条面积为100%,用长条内各段面积所占的百分比来表示各部分在全体中所占的比例。
适用资料:构成比资料。
绘制要点:
(1)先绘制一个标尺,尺度为0~100(%),标尺可绘制在直条图的上方或下方。
(2)绘制一直条,长度与标尺一致,以直条的长度表示数量的百分比。
(3)直条各部分用线分开,各段需用不同颜色或图形表示,并标出所占的百分比,必要时需用图
例说明。
(4)若有两种或两种以上性质相同的资料,在同一标尺上可绘制两个或两个以上直条,以便于分析
比较。
3.圆图(piechart)
以一个圆面积为100%,用圆内各扇形面积所占的百分比来表示各部分所占的构成比例。
适用资料:构成比资料。
应用:描述各部分的百分构成。
用途与百分条图相同。但多组数据作比较,圆图的效果不如百分条图。
4、线图(linegraph)
①普通线图(linegraph):用线段的升降表达事物之间变化幅度(绝对差)。
适用资料:连续型变量资料。
纵轴:算术尺度;
横轴:算术尺度,连续性变量(时间、年龄等)
②半对数线图(mi-logarithmiclinegraph):
表达事物之间相对变化速度的比较(相对比)。
适用资料:连续型变量资料
纵轴:对数尺度;
横轴:算术尺度,连续性变量(时间、年龄等)
5.直方图(histogram)
用矩形面积表示连续型变量的频数(频率)分布。
适用资料:连续型变量资料
6.散点图
概念:以点的密集程度和趋势来表示两种现象的相关关系。
适用资料:双变量资料。
应用:反映两事物间的相关关系,主要用于相关回归分析。
7.箱式图(boxplot)
用于多组数据的直观比较分析,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。
一般选用五个描述统计量(最小值、P25、中位数、P75、最大值)来绘制。
适用资料:连续型资料
直条图:性质相似而不连续的资料,用于表达不连续指标的数值大小
直方图:连续型变量资料的频数分布
百分条图:构成比资料,表示总体中各部分的比重
圆图:构成比资料,表示总体中各部分的比重
线图:连续型变量资料,适用于表达事物之间变化幅度的比较
半对数线图:连续型变量资料,适用于表达事物之间相对变化速度的比较
箱式图:连续型变量资料,用于多组数据的直观比较分析
散点图:变量资料,用点的密集度和趋势表达两变量间的相关关系。
常用概率分布
1正态分布(连续型随机变量的概率分布)
(1)正态概率密度曲线特点:①关于x=μ对称;②在x=μ处取得该概率密度函数的最大值,在x=μ±σ
处有拐点;③曲线下面积为1;④正态分布有两个参数:位置参数μ(决定曲线在横轴上的位置)和变异参
数σ(决定曲线的形状);⑤μ±1.64σ面积为90%,μ±1.96σ面积为95%,μ±2.58σ面积为99%。
(2)Z变换与标准正态分布:对于任意一个服从正态分布N(μ,σ2)的随机变量,可作Z变:Z=
μx
,
变换后的z值仍然服从正态分布,且其总体均数为0、总体标准差为1,称此为标准正态分布,用N(0,1)
表示。Φ(z)为标准正态分布Z变量的累积面积,-∞→Z的面积,即下侧累计面积。
★(3)正态分布的应用:①确定医学参考值范围:是指特定的“正常”人群(排除了对所研究的指标有影
响的的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的
取值所在范围,习惯用该人群的95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。方法:
a百分位数法:适用于任何分布类型的资料;b正态分布法。②质量控制图:如果某一波动仅仅由个体差异
或随机测量误差所致,那么观察结果服从正态分布。控制图共有7条水平线,中心线位于总体均数μ处,
警戒限位于μ±2σ处,控制限位于μ±3σ处,此外还有两条位于μ±σ处。
★(4)确定医学参考值的步骤:①从“正常人”总体中抽样,明确研究总体;②用统一和准确的方法测定
相应的指标;③根据不同的用途选定适当的百分界限,常用95%;④根据此指标的实际意义,决定单侧范
围
还是双侧范围;⑤根据此指标的分布决定计算方法,常用的计算方法:正态分布法、百分位数法。
2二项分布:
(1)是一种离散型随机变量的分布类型。如果每个观察对象阳性结果的发生概率为π,阴性结果的发生概率
为(1-π);而且每个观察对象的结果是相互对立的,那么,重复观察n个人,发生阳性结果的人数X的
概率分布为而二项分布,记作B(n,π)。二项分布的概率函数P(X)=
x
n
CπX
(1-π)n-x,
x
n
C=
)!(!
n!
XnX
⑵适用条件:①每次实验只有两种互斥的结果;②各次实验互相独立;③发生成功事件的概率恒定。
⑶分布特征:二项分布的特征由二项分布的参数π以及观察的次数n决定。
①图形分布特征:二项分布图的高峰在μ=nπ处或附近;π=0.5时,图形对称;π≠0.5时,分布不对称,
且对同一n,π离0.5愈远,对称性愈差。对于同一π,随着n的增大,分布趋于对称。当n→∞时,只要
π不太靠近0或1(特别是当nπ和n(1-π)均大于5时),二项分布趋于对称。
②二项分布的均数和标准差:
若X服从二项分布B(n,π),则X的总体均数为μ=nπ,总体方差为σ2=nπ(1-π),总体标准差为σ
=π)π(-1n;若将出现阳性结果的频率记为:P=
n
X
,则样本率P的总体均数为μ
P
=π,总体方差为σ
2
p
=
n
π)π(-1
,总体标准差为σ
p
=
n
π)π(-1
,σ
p
是频率P的标准差,又称频率的标准误,反映阳性频率
的抽样误差大小。
⑷累积概率计算:①二项分布出现阳性的次数至多为k次的概率为:P(X≤k)=
X
X
XnX
n
nx
k
0
)1(
)!(!
!
ππ
②出现阳性的次数至少为k次的概率为:P(X≥k)=
X
kX
XnX
n
nx
n
)1(
)!(!
!
ππ。
3Poisson分布:
⑴是一种离散型随机变量的分布类型,是二项分布的特例,用以描述单位时间、空间、面积等的罕见事件
发生次数的概率分布。一般记作P(λ),λ是Poisson分布的唯一参数。总体均数为λ=nπ。前提条件:
互斥、独立、恒定。
⑵概率函数为:P(X)=e-λ!X
X
,X为观察单位内稀有事件的发生次数,e=2.71828。
⑶分布特性:Poisson分布是非对称的,总体参数λ值越小,分布越偏;随着λ→∞,分布趋于对称,当λ
≥20时,Poisson分布资料可按正态分布处理。①Poisson分布总体均数与总体方差相等,均为λ;②Poisson
分布的观察结果可加性,即对于服从Poisson分布的m歌互相独立的随机变量X1、X2…Xm,它们的和也服
从Poisson分布,其均数为这个m随机变量的均数之和。
⑷概率计算:如果稀有事件发生次数的总体均数为λ,有事件发生次数至多为k次的概率为:P(X≤k)=
!
0
X
e
X
k
X
;生次数至少为k次的概率:P(X≥k)=1-P(X≤k-1)
★4三种常用分布之间的关系:
①二项分布与Poisson分布的关系:当n很大,发生概率π(或1-π)很小,二项分布B(n,π)近似于
Poisson分布P(nπ);
②二项分布与正态分布的关系:当n较大,π不接近0或1(特别是当nπ和n(1-π)均大于5时),二
项分布B(n,π)近似于正态分布N(nπ,nπ(1-π));
4Poisson分布与正态分布的关系:当λ≥20时,Poisson分布渐进正态分布N(λ,λ)。
★5二项分布与Poisson分布的区别:
⑴相同点:都是离散型随机变量的常见分布;
⑵区别:a取值不同。服从二项分布的随机变量有n+1个不同的取值;Poisson分布的随机变量的可能去只
有无限多个,即非负整数0,1,2……;b随机变量的概率不同:二项分布P(X=k)
=
k-n-1
)!(!
!
π)(πk
knk
n
,Poisson分布P(X=k)=e-λ!k
k
;c描述的随机变量不同。二项分布描述的是一次
试验只会出现两种对立的结果之一,n次独立重复试验中某种结果出现次数的概率分布。Poisson分布描述
的是在单位时间、面积、空间等范围中某种事件发生数的概率分布。
⑶联系:B(n,π)很大,π很小nPoisson分布。
参数估计
1在服从正态分布的总体中进行随机抽样,样本均数的抽样分布特点:①各样本均数未必等于总体均数;②
样本均数见存在差异;③样本均数围绕总体均数,中间多、两边少,左右基本对称,呈近似正态分布;④
样本均数间的变异明显小于原始变量间的变异。
2标准误:
①均数的标准误的理论值:σ
X
=
n
,总体标准差σ通常未知,需用样本标准差S来估计,均数标准误的
估计值为:S
X
=
n
s
;②频率的标准误:若随机变量X~B(n,π),则样本频率P=
n
X
的总体概率为π,标
准误是σ
p
=
n
π)π(-1
,频率标准误的估计值:S
P=
1
-1
n
pp)(
n
pp)(-1
(①②增加样本含量可以减
少样本误差)。
抽样误差:样本统计量与相应总体参数的差别;由抽样造成的样本均数与样本均数之间、样本均数与总体
均数之间的差异。
标准误(standarderrorofmean,SE)样本均数的标准差称为标准误。表示样本均数的变异大小,反映
样本均数抽样误差的大小。
★3标准差与标准误的区别与联系:
区别:⑴标准差S(σ):①意义:描述个体观察值变异程度的大小。标准差小,均数对一组观察值得代表
性好;②应用:与X结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;③与n的关
系:n越大,S越趋于稳定;⑵标准误S
X
(σ
X
):①意义:描述样本均数变异程度及抽样误差的大小。
标准误小,用样本均数推断总体均数的可靠性大;②应用于X结合,用以估计总体均数可能出现的范围以
及对总体均数作假设检验;③与n的关系:n越大,S
X
越小。
联系:①都是描述变异程度的指标;②由S
X
=
n
s
可知,S
X
与S成正比。n一定时,s越大,S
X
越大。
4t分布:当X服从均数为μ的正态分布时,统计量
ns
X
t
服从自由度为v=n-1的t分布,是小样本总
体均数的区间估计及假设检验的理论基础。
⑵t分布的图形特征:t值得分布于自由度有关。t分布只有一个参数即v。特征:①单峰分布,以0为中
心,左右对称;②v越小,t值越分散,曲线的峰部越矮,尾部越高;③随着v逐渐增大,t分布逐渐接近
标准正态分布;当v趋向∞时,t分布趋近标准正态分布,故标准正态分布是t分布的特例;④t分布是一
簇曲线。
⑶t界值表:①在自由度相同时,t值越大,t分布的尾部概率越小;②在t临界值相同时,双侧尾部面
积概率为单侧尾部面积概率的两倍。
5参数估计:包括点估计和区间估计。置信区间的两个要素:①准确度:反映置信度1-α的大小,及区间
包括总体均数μ的理论概率的大小,愈接近1越好;②精密度:即区间的宽度,区间越窄越好,如样本含
量不变,将置信度由95%提高到99%,则置信区间由窄变宽,估计的精度下降。
6总体均数及总体概率的区间估计:
⑴体均数的置信区间:t分布法和正态近似法
I.t分布法:当σ未知且n较小时,总体均数μ的双侧(1-α)置信区间为X±t
v,α2/
S
X
;单侧(X-t
v,α
S
X
,
∞)或(-∞,X+t
v,α
S
X
);
II.正态近似法:①当σ已知时,总体均数μ的双侧(1-α)置信区间为X±Z
v,α2/
σ
X
;单侧(X-Z
v,α
σ
X
,∞)或(-∞,X+Z
v,α
σ
X
);②当σ未知但n足够大时(n>50),t分布近似服从标准正态分布,
总体均数μ的双侧(1-α)置信区间为:X±Z
v,α2/
S
X
,单侧(X-Z
v,α
S
X
,∞)或(-∞,X+Z
v,α
S
X
)
⑵总体概率的置信区间:对于二项分布的样本资料,可根据样本含量n和样本频率p的大小,选用查表法
(n≤50,特别是p很接近0或100%时)或正态近似法估计总体概率π的(1-α)置信区间。
正态近似法:当n足够大,且np及n(1-p)均大于5时,p的抽样分布近似正态分布,总体概率π的双侧(1-
α)置信区间等于P±Z
2/α
S
p
★7医学参考值范围与总体均数的置信区间的区别:
⑴参考值范围
①意义:绝大多数人某项指标的数值范围;
②计算:正态分布双侧X±Z
v,α2/
S;单侧(X-Z
α
S,∞)或(-∞,X+Z
α
S)
偏峰分布双侧P
X
~P
100-X
;单侧(P
X
,∞)或(-∞,P
100-X
)
③应用:判断某项指标正常与否
⑵总体均数的置信区间:
①意义:按一定的置信度估计总体均数所在范围;
②计算:正态分布σ未知:双侧X±t
v,α2/
S
X
,单侧(X-t
v,α
S
X
,∞)或(-∞,X+t
v,α
S
X
);
σ已知:双侧X±Z
v,α2/
σ
X
,单侧(X-Z
v,α
σ
X
,∞)或(-∞,X+Z
v,α
σ
X
);
正态分布或偏峰分布:σ未知但n足够大:双侧X±Z
v,α2/
S
X
,单侧(X-Z
v,α
S
X
,∞)或(-
∞,X+Z
v,α
S
X
)
③应用:估计总体均数所在范围。
假设检验
按(1-β)的概率或置信度,估计总体参数所在范围,称作置信度为(1-β)的置信区间。
95%置信区间:从同一总体中随机抽取100个样本,可计算100个置信区间,则理论上有95个包含总体均
数,有5个不包含总体均数。
假设检验与区间估计的关系:置信区间具有假设检验的主要功能(看包不包括1)
置信区间提供,假设检验不提供的信息(实际信息)
假设检验提供,置信区间不提供的信息(P值)
I类错误、II类错误和n的关系:
当样本含量n一定时,α越大,β越小;α越小,β越大。实际应用中,可通过α去控制β。增
大样本含量n,可同时减小α和β。
假设检验的功效:
1-β称为假设检验的功效(power)。其意义是,当所研究的总体与H0确有差别时,按检验水准α能够
发现它(拒绝H0)的概率。
如果1-β=0.90,则意味着当H0不成立时,理论上在每100次抽样中,在α的检验水准上平均有90次能
拒绝H0。
一般情况下对同一检验水准α,功效大的检验方法更可取。
P值的意义
P<α,差异有统计学意义,并不表示总体均数实际差异很大。
P值越小,越有理由拒绝H0(拒绝H0时所冒的风险)。影响检验效能的主要因素:总体参数的差异、个
体差异、样本量、检验水准。
1假设检验的过程:建立检验假设,确定检验水准→计算统计量→确定P值并与给定的α比较→做出推断
结论。
2假设检验的基本逻辑:在H
0
成立的条件下(处理因素不起作用),计算统计量和P值,把“不太可能出
现假阳性”当作“不可能出现假阳性”,从而拒绝H
0
,接受H
1
(处理因素起作用)。
3假设检验的两类错误:Ⅰ型和Ⅱ型错误。(见名解)
实际情况统计推断
拒绝H
0
,有差异不拒绝H
0
,无差异
H
0
成立,无差异第Ⅰ类错误(假阳性),概率=α正确,概率=1-α
H
1
成立,有差异正确,该概率=1-β第Ⅱ类错误(假阴性),概率=β
4t检验:
⑴应用条件:①随机样本:②来自正态分布总体;③均数比较时,要求两总体方差相等(方差齐性)。
⑵单样本资料的t检验:实际上是推断该样本来自的总体均数μ与已知的某一总体均数μ
0
有无差别。
检验假设:H
0
:μ=μ
0
,H
1
:μ≠μ
0
;前提条件:样本来自正态总体;计算公式:
ns
X
t0
;自由v=
n-1。
配对设计资料的t检验:配对资料的分析着眼与每一对中两个观察值之差,这些差值构成一组资料,用t
检验推断差值总体均数是否为0。
检验假设:H
0
:μ
d
=0,H
1
:μ
d
≠0;前提条件:差值服从正态分布;计算公式
ns
d
ns
d
s
d
t
ddd
d
//
0
;
自由度v=n-1(n是对子数)。
两独立样本资料的t检验:两样本均数的比较。
检验假设:H
0
:
1
=
2
,H1
:
1
≠
2
;前提条件:两样本服从正态分布,且具有方差齐性;计算公式:
21
21
XX
S
XX
t
,
21
XX
S
代表两样本均数之差的标准误,
21
211
21nn
SS
C
XX
,S
2
c
为两样本联合估
计的方差,
2
11
21
2
22
2
11
2
nn
SnSn
S
c
2
21
2
22
2
11
nn
XXXX
;自由度2
21
nn。
5t
检验:前提条件:两小样本来自正态总体且方差不等。方差不齐,可采用的处理方式有:t
检验,基
于秩次的非参数检验和数据变换。非正态分布,方差不齐:基于秩次的非参数检验和数据变换。
检验假设:H
0
:
1
=
2
,H
1
:
1
≠
2
;计算公式:
2
2
2
1
2
1
21
n
S
n
S
XX
t
;自由度
11
2
4
1
4
2
22
21
21
n
S
n
S
SS
XX
XX
6两组独立样本资料的方差齐性检验:两组正态分布随机样本判断其总体方差是否齐同:
2
2
2
11
2
2
2
10
::HH,当H0成立时,检验统计量
(较小)
较大)
2
2
2
1
(
S
S
F,1,1
2211
nn,
当F>3时,方差不齐。
7大样本资料的Z检验(u检验):前提条件:样本足够大;两独立样本资料的Z检验:假定从两个正态总
体(或非正态)总体随机抽取含量为n1和n2的样本,总体均数和方差分别为
2
22
2
11
,,和。当n1和
n2均较大时,两样本均数的和与差的分布也服从(或近似服从)正态分布,
21
XX~
2
2
2
1
2
1
21
,
nn
N
210
:H,
2
2
2
1
2
1
21
n
S
n
S
XX
Z
。当H0成立时,这个统计量服从标准正态分布。
★t检验与Z检验的比较:两样本均数比较的t检验适用条件为:样本含量小,两样本独立,来自正态总
体,
且两总体方差相等。Z检验是大样本情况下的t检验的近似,用于两总体方差已知,或总体方差未知但样本
含量较大(n1>60且n2>60)的两样本均数的比较。样本量较大时,两种检验方法都可用。
★8假设检验与区间估计的关系:①置信区间具有假设检验的主要功能:在α水准上可回答差别有无统计
学意义;②置信区间可提供假设检验没有提供的信息:根据置信区间上、下限的数值大小可判断差别是否
具有实际意义;③假设检验可提供确切的P值,置信区间只能在预先确定的置信度100(1-α)%水平上进
行推断,没有精确的概率值,且有可能增大Ⅱ类错误;④置信区间推断量的大小,即推断总体均数范围;
假设检验推断质的大小即推断总体均数是否存在不同。只有把置信区间和假设检验结合起来,互相补充才
是对问题比较的完整分析。
9假设检验的注意事项:①根据研究目的、设计类型、变量类型及样本大小选择恰当的统计分析方法;②权
衡两类错误的危害以确定α的大小;③正确理解P值的意义:P值很小时“拒绝H
0
,接受H
1
”,不能把很
小的P值误解为总体参数间差异很大。拒绝H
0
只是说差异不为0,P值小只是说犯一类错误的机会远小于
α。P与α本质相同,都为概率,P是根据当前实验计算的概率,α是预先给定的概率,为检验水准,是定
义了的小概率上限。
实验设计
1根据研究者是否认为地设置处理因素,即是否给予干预措施,可将医学研究分为调查研究和实验研究两类。
1调查研究:又称观察性研究或非实验性研究,确切的说应是非随机化对比研究。它对研究对象不施加任
何干预措施,是在完全“自然状态”下对研究对象的特征进行观察、记录,并对观察结果进行描述和对比
研究。
2实验研究:又称干预性研究,是对研究对象人为给予干预措施的研究。
2实验设计的基本要素:受试对象、处理因素、实验效应。
1受试对象:是处理因素作用的客体,根据受试对象不同,实验可以分为三类:动物实验、临床试验、现
场试验。
2处理因素:是研究者根据研究目的而施加的特定的实验措施,又称为受试因素。
3实验效应:是处理因素作用下,受试对象的反应或结局,它通过观察指标来体现。
选择观察指标时,应当注意:a客观性:客观指标具有较好的真实性和可靠性;b精确性:包括准确度和精
密度两层含义。准确度指观察值与真值的接近程度,主要受系统误差的影响。精密度指相同条件下对同一
对象的同一指标进行重复观察时,观察值与其均数的接近程度,其差值受随机误差的影响。c灵敏性和特
异性:指标的灵敏度反映其检出真阳性的能力,灵敏度高的指标能将处理因素的效应更好地显示出来;指
标的特异度反映其鉴别真阴性的能力,特异度高的指标不易受混杂因素的干扰。
3实验设计的基本原则:对照、随机化和重复。
⑴对照的形式:①安慰剂对照:目的:在于克服研究者、受试对象等由心理因素导致的偏倚。②空白对照:
即对照组不接受任何处理,在动物实验和实验方法研究中最常见,常用于评价测量方法的准确度,评价实
验是否处于正常状态等。③实验对照;④标准对照:用现有标准方法或常规方法作为对照;⑤自身对照:
对照与实验在同一受试对象身上进行。
⑵a随机化体现在三方面:①随机抽样:总体中每一个体都有相同机会被抽到样本中来;②随机分配:每
个受试对象被分配到各组的机会相等,保证大量难以控制的非处理因素在对比组间尽可能均衡,以提高组
间的可比性;③实验顺序随机:每个受试对象先后接受处理的机会相等,它使实验顺序的影响也达到均衡。
b在实验设计中常通过随机数来实现随机化。获得随机数的常用方法有:随机数字表和计算机的伪随机数发
生器。随机数字表常用于抽样研究及随机分组。
c常用的两种随机化分组的方法:完全随机化和分层随机化(配对随机化和区组随机化可看成是分层随机化
的实际应用)。
⑶重复包括三种情形:①整个实验的重复;②用多个受试对象进行重复;③同一受试对象的重复观察。重
复的主要作用:①估计变异的大小;②降低变异大小。
4常用的实验设计方案:
⑴完全随机设计(completelyrandomizeddesign):又称简单随机设计,是最为常见的一种考察单因素
两水平或多水平效应的实验设计的方法,它是采用完全随机分组的方法将同质的受试对象分配到各处理组,
观察其实验效应。
⑵配对设计(paireddesign):是将受试对象按一定条件配成对子,再将每对中的两个受试对象随机分配
到不同的处理组。据以配对的因素应为可能影响实验结果的主要混杂因素。配对设计主要有以下情形:①
将两个条件相同或相近的受试对象配成对子,通过随机化,使对子内个体分别接受两种不同的处理;②同
一受试对象的两个部分配成对子,分别速记地接受两种不同的处理;③自身前后配对,即同一受试对象,
接受某种处理之前和接受该处理后视为配对。
⑶交叉设计(cross-overdesign):是一种特殊的自身对照设计,它按事先设计好的实验次序,在各个时
期对受试对象先后实施各种处理,以比较处理组间的差异。基本前提:个处理方式不能相互影响,即受试
对象在接受第二种处理时,不能有前一种处理的剩余效应。优点:节约样本含量;能够控制个体差异和时
间对处理因素的影响,故效率较高;在临床试验中,每个受试对象均接受了各种处理,均等的考虑了每个
患者的利益。进行交叉设计应注意:尽可能采用盲法,以提高受试对象的依从性,避免偏倚;不宜用于具
有自愈倾向或病程较短的疾病研究。在慢性病观察过程中,应尽量保持条件的可比性。
⑷随机区组设计:又称单位设计、配伍组设计,实际上是配对设计的扩展。通常是将受试对象按性质相同
或相近分为b个区组(或称单位组、配伍组),再将每个区组中的k个受试对象随机分配到k个处理组。
设计应遵循“区组间差别越大越好,区组内差别越小越好”的原则。
⑸析因设计(factorialdesign):a是将两个或多个处理因素的个水平进行组合,对各种可能的组合都
进行实验,从而探讨个处理因素的主效应以及个处理因素间的交互效应,又称完全交叉分组实验设计。所
谓交互作用是指两个或多个处理因素间的效应互不独立,当某一因素取不同水平时,另一个或多个因素的
效应相应的发生变化。两因素间的交互作用为一阶交互作用,三因素间交互作用为二阶交互作用。
b当观察k个处理因素,每个因素均有m个水平时,共有mk种组合,简记为mk析因设计。
c可获得三方面的信息:各因素不同水平的效应;各因素间的交互作用;通过比较寻求最佳组合。
5样本含量的估算:
⑴确定样本含量的原则:在保证研究结论有一定可靠性的前提下,估算最少需要多少受试对象。
⑵假设检验所需样本含量取决于四个要素:
1第一类错误概率α的大小:α越小,所需样本量越大;②第二类错误概率β或检验功效(1-β)的大小:
第二类错误的概率越小,检验功效越大,所需样本含量越多;③容许误差δ:即两总体参数的的差值,δ
越大,所需样本含量越小;④总体标准差σ和总体概率π:σ越大,所需样本含量越多;总体概率π越接
近50%,变异性越大,所需样本含量越多。
方差分析
1基本思想:把全部观察值间的变异按设计和需要分解成两个或多个组成部分,然后将各部分的变异与随机
误差进行比较,以判断各部分的变异是否具有统计学意义。
2应用条件:①各样本是相互独立的随机样本;②各样本来自正态总体;③各处理组总体方差相等,即方差
齐性。
3任何设计方案的SS
总
和v
总
算法均相同,即在不考虑数据按任何方向分组的情况下,将所有数据看成一个
整体计算,即SS
总
=2-XX=(N-1)S2,v
总
=N-1。
几种设计方案中SS
总
和v
总
的分解:
设计方案SS
总
的分解v
总
完全随机设计SS
总
=SS
组间
+SS
组内
v
总
=v
组间
+v
组内
随机区组设计SS
总
=SS
处理
+SS
区组
+SS
误差
v
总
=v
处理
+v
区组
+v
误差
析因设计SS
总
=SS
处理
+SS
误差
v
总
=v
处理
+v
误差
=(SS
A
+SS
B
+SS
AB
)+SS
误差=
(v
A
+v
B
+v
AB
)+v
误差
重复测量设计(两因素)SS
总
=SS
受试对象间
+SS
受试对象内
v
总
=v
受试对象间
+v
受试对象内
=(SS
处理
+SS
个体间误差
)+=(v
处理
+v
个体间误差
)+
(SS
时间
+SS
处理与时间交互
+SS
个体内误差
)(v
时间
+v
处理与时间交互
+v
个体内误差
)
4重复测量资料和随机区组设计资料的区别:①同一受试对象在不同时间点的数据高度相关;②重复测量
资料中的处理因素在受试对象(看成区组)间为随机分配,但受试对象(看成区组)内的各时间点是固定
的,不能随机分配。随机区组设计资料中每个区组内的受试对象彼此独立,处理只在区组内随机分配,同
一区组内的受试对象接受的处理各不相同。
5重复测量资料方差分析的前提条件:①各样本是相互独立的随机样本;②各样本来自正态总体;③各处
理组总体方差相等,即方差齐性;④需满足协方差阵的球形性或复合对称性。
6多各样本均数的两两比较方法:①未计划的每两个均数的事后比较,常用SNK-q检验;②计划好的某些
均数间的两两比较,常用Dunnett-t检验;③Bonferroni法和sidak法适用于所有的两两比较。
方差分析后不能作两两比较的t检验的原因:会增加犯一类错误的概率。如果比较次数为k,每次检验水准
为α,则犯一类错误的累积概率为1-(1-α)k,高于原有的α。
7数据变换的目的:①使各组达到方差齐性;②使资料转换为正态分布,以满足方差分析和t检验的应用
条件。通常情况下,一种适当的函数转换可使上述两个目的同时达到。③曲线直线化。常用于曲线拟合。
常用的数据变换有对数变换、平方根变换、平方根反正弦变换。
8方差分析中的F检验是单侧检验的原因:方差分析中检验统计量F的计算通常是用某部分的均方(如处
理因素、交互效应等)除以误差的均方,其中分母误差部分尽含随机因素作用,分子某部分的均方含有相
应处理因素或交互作用的效应,而且还含有随机因素的作用,因此得F值从理论上应≥1,不会小于1,所
以方差分析中F检验是单侧检验。
2检验
1
2检验用途:常用于分类变量资料的统计推断,主要用途包括:①单样本分布的拟合优度;②比较两个
或多个独立样本频率分布;③比较配对设计两样本频率和两频率分布;④推断两个变量或特征之间有无关
联性。
2
2检验的理论基础是X2分布和拟合优度检验。
⑴
2分布①是一种连续型随机变量的概率分布,按分布的密度函数可给出自由度=1,2,3,……的一簇分
布曲线。②
2分布形状完全依赖于自由度v的大小,当v>1时,随着v的增加,曲线逐渐趋于对称;当
自由度v趋于∞时,
2分布逼近正态分布。
⑵拟合优度检验是根据样本的频率分布检验其总体分布是否等于给定的理论分布。
3X2检验的基本思想是:用统计量度量实际频数和理论频数之间的偏离程度,永远是正值,
2检验统计量
的基本公式是:
2=
k
i
i
ii
T
TA
1
2
,v=k-1-s,s是用样本估计量代替总体参数的个数。若假设成立,则各
格子的实际频数与理论频数相差不应该很大,因而算出的X2值也不会很大,即出现较大
2值的概率P很小。
若P≤α,则认为A与T的差别已超出了抽样误差允许的范围,拒绝H
0
。若P>α,不拒绝H
0
。
4独立样本2×2列联表资料的
2检验:
H
0
:两总体率相等;H
1
:两总体率不等。
1n≥40且T
min
≥5,
2=
T
TA2
,
2=
dbcadcba
nbcad
2
,v=1;
2n≥40且1≤T<5,校正公式:
2=
T
TA25.0
,
2=
dbcadcba
nnbcad
22/
,v=1;
3n<40或T<1,或P≈α时,Fisher精确概率法。
5独立样本R×C列联表资料的
2检验:(多个独立样本率、独立样本频率分布的比较)
H
0
:多个总体率相等;H
1
:多个总体率不等。
2=n
1
2
CR
RC
mn
A
,v=(R-1)(C-1)
要求:理论频数不宜太小,一般不宜有1/5以上的格子的理论频数小于5,或不宜有一个理论频数小于1,
否则可能会产生偏性。如果不满足此要求,处理方法有:①增加样本含量(首选);②结合专业知识考虑
是否可以将该格所在行或列与别的行和列合并,要根据样本特性来确定,但会损失信息;③改用R×C表
Fisher精确概率法,可以用计算机软件实现。
R×C列联表的分割:
①多个实验组间的两两比较:分析目的为k个实验组间,任两个率均进行比较时,须进行
2
k
次独立的四
格表
2检验,再加上总的行×列表资料的
2检验,共
1
2
k
次检验假设。故检验水准
'用下式估计:
'=1
2
k
α
,k
2
=
)!2(!2
!
k
k
,k为样本率的个数。②实验组与同一个对照组的比较:分析目的为各实验
组与同一个对照组的比较,而各实验组间不须比较。其检验水准
'用下式估计:
'=
)(
α
1-2k
。
6配对设计资料的X2检验:
⑴配对2×2列联表资料的X2检验(两种处理方法阳性率的比较):
H
0
:两总体阳性率相等;H
1
:两总体阳性率不等。
1当b+c≥40时,
2=
T
TA2
=
cb
cb
2
,v=1;②当b+c<40时,校正公式
2=
cb
cb
21
,v=1。
⑵配对R×R列联表资料的
2检验:
H
0
:两变量的概率分布相同;H
1
:两变量的概率分布不相同。
T=
k
i
iiii
ii
Amn
mn
k
k
1
2
2
1
,v=k-1。
多个独立样本资料的卡方检验:
应用条件
理论频数T不能太小(T>1,且T<5的格子数不
超过总格子数的1/5)
不满足应用条件时的办法
理论频数太小的行(列)与邻近行(列)合并
删除理论频数太小的行(列)
增大样本含量n
确切概率法:理论频数T<1;样本含量n<40;检验后所得概率P接近检验水准
基于秩次的非参数检验
1假设检验的方法有:参数检验和非参数检验。
①参数检验:是以特定的总体分布为前提,对未知的总体参数做推断的假设检验方法统称为~,如t检验和
方差分析。
②非参数检验:不以特定的总体分布为前提,也不针对决定总体分布的几个参数做推断,进行的是分布之
间的检验。一般不直接用样本观察值做分析,统计量的计算基于原数据在整个样本中按大小所占位次。由
于丢弃了观察值的具体数据,只保留了大小次序的信息,凡适合参数检验的资料,应首选参数检验。
2非参数检验适用于:①有序变量资料;②总体分布类型不明的资料;③分布不对称且无法转化为正态分布
资料;④对比组间方差不齐,有无适当变换方法达到方差齐性的资料;⑤一端或两端观察值不确切的资料;
⑥等级资料。
3wilcoxon符号秩(和)检验:
⑴目的:可用于推断总体中位数是否等于某个指定值,还可以推断配对样本差值的总体中位数是否为0。①
单样本资料的符号秩检验常用于不满足t检验条件的单样本定量变量资料的比较。②配对设计资料的符号
秩和检验:由检验配对样本的差值是否来自中位数为0的总体,来推断两个总体中位数是否相等,即两种
处理效应是否相同。wilcoxon配对符号秩和检验基本思想:在配对样本中,假定两种处理效果相同,则差
值的总体分布为对称分布,并且差值的总体中位数为0。若假设成立,样本差值的正秩和与负秩和应相差不
大,均接近n(n+1)/4;当正负秩和相差悬殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而
拒绝H
0
。
⑵方法要点:①按差值绝对值从小到大编秩,差值为正的秩和以T
+
表示,为负的秩和以T
-
表示,任取T
+
(或
T
-
)作为检验统计量T,查T界值表确定P值;②正态近似法:随着n的增大,T分布逼近均数为n(n+1)
/4,方差为n(n+1)(2n+1)/24的正态分布。当n>50,用Z检验。
⑶注意事项:①编秩时遇差值为0舍去,n随之减小;遇有差值的绝对值相等,符号相同,仍按顺序编秩;
符号不同,取其平均秩次;②T
+
+T
-
=n(n+1)/2
4wilcoxon秩和检验:
⑴目的是推断连续型变量资料或有序变量资料的两个独立样本代表的两个总体分布是否有差别。
⑵方法要点:①将两组数据由小到大同一编秩,以样本列数小者为n
1
,其秩和为T,查T界值表确定P值;
②正态近似法:当n
1
>10或n
2
-n
1
>10时,T分布接近均数为n
1
(N+1)/2,方差为n
1
n
2
(N+1)/2的正态分
布,可用Z检验。
⑶注意事项:①编秩中若有相同的数据在同一组则依次编秩;若相同数值在不同组内,求平均秩次;②当
相持出现较多时(超过25%),需使用校正公式。
⑷基本思想:假设含量为n
1
与n
2
的两个样本(且n
1
≤n
2
),来自同一总体或分布相同的两个总体,则n
1
样本
的秩和T1与其理论秩和n
1
(N+1)/2相差不大,即[T-n
1
(N+1)/2]仅为抽样误差所致。当二者相差悬殊,
超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒绝H
0
。
5Kruskal-WallisH检验:
⑴目的:用于推断定量变量或有序分类变量的多个总体分布有无差别。
⑵方法要点:①先将k组数据由小到大同一编秩,求出各组秩和R
i
,计算检验统计量H;②当组数k=3,且
各组例数n
i
≤5时,查H界值表确定P值;若k≥3或最小样本例数大于5,则H统计量近似服从v=k-1的
2
分布。
⑶注意事项:①编秩中若有相同的数据在同一组则依次编秩;若相同数值在不同组内,求平均秩次;②当
相持出现较多时(超过25%),需使用校正公式;③当结论为拒绝H
0
,认为多组处理效应不全相同时,常
需进一步作多个样本的两两比较的秩和检验。
两变量关联性分析
1相关系数的意义及计算:
相关系数=的方差的方差
的协方差和
YX
YX
。
①总体相关系数ρ,若ρ≠0,称X和Y线性相关;若ρ=0,则简称X和Y不相关。样本协方差是离均差乘
积在样本中的平均,离均差在总体中的平均就是总体协方差。
②样本相关系数
YYXX
XY
ll
l
YYXX
YYXX
r
22
,是两个随机变量之间线性相关强度和方向的
统计量,没有单位,取值范围为-1
负相关,r=0为零相关。r的绝对值大小表示两变量之间线性相关的密切程度,r越接近于1,密切程度越
高,越接近于0,密切程度越低。
2相关系数的统计推断:
建立建设:H
0
:ρ=0;H
1
:ρ≠0,并假定X和Y服从二元正态分布。
方法:①直接查相关系数临界值表,根据自由度v=n-2,差临界值表,比较r与临界值,统计量越大,概
率P越小;统计量越小,概率P越大。②t检验:统计量为t
r
=
r
S
r0
,S
r
为样本相关系数r的标准误,
S
r
=
2
r12
n
,H
0
成立时,t
r
服从自由度为v=n-2的t分布。以上两种方法的决策规则相同:若P>0.05,不
拒绝零假设,即认为两个变量间无相关性;若P<0.05,拒绝零假设,接受备择假设,即认为两变量间相关
性有统计学意义。
3相关分析应注意的问题:①进行相关分析前,应先绘制散点图。只有散点有线性趋势时,才能进行直线
相关分析。②线性相关分析要求两个变量都是随机变量,而且仅适用于二元正态分布资料;③出现离群值
慎用相关;④相关关系不一定是因果关系;⑤分层资料盲目合并易出现假象;⑥样本的相关系数接近零并
不意味着两变量间一定无相关性,有可能是非线性的曲线关系。
4秩相关系数的计算:r
s
=
qqpp
pq
ll
l
=
22qqpp
qqpp
,-1≤r
s
≤1。适用于条件:①不服从双
变量正态分布而不宜作积差相关分析的资料;②总体分布型未知的资料;③用等级表示的原始资料;④分
布端点无确定数值的资料;⑤用相对数表示的资料。
5秩相关系数的统计推断:H
0
:ρ
s
=0;H
1
:ρ
s
≠0,α=0.05,当n≤50时,查附表14的r
s
界值表;当n>50
时,计算检验统计量u,查t界值表。
6分类资料的关联性分析:
⑴对两个定量变量的关联性,可用Pearson积矩相关系数或秩相关系数来描述;对两个分类变量,通常是
先根据交叉分类计数所得的列联表进行两种属性独立性的
2检验,然后计算关联系数。关于两个分类变量
关联的程度,用Pearson列联系数来描述:r=
n2
2
,列联系数r取值范围在0~1之间。0表示完全独
立;1表示完全相关;愈接近于0,关系愈不密切;愈接近于1,关系愈密切。【对两个反映属性的分类变
量,若有一份随机样本,可做交叉分类的频数表,利用关于独立性的
2检验和列联系数来描述两变量的关
联性】
⑵交叉分类2×2表的关联分析:
2=
T
TA2
⑶2×2配对资料的关联性分析:n≥40且T
min
≥5,
2=
dbcadcba
nbcad
2
;n≥40且1≤T<5,
2=
dbcadcba
nnbcad
22/
。
⑷R×C表分类资料的关联性分析:
2=n
1
2
CR
RC
mn
A
,每格的T>1且T<5的格子数不宜多于格子总数
的1/5。
简单回归分析
1回归方程:Y
ˆ
=a+bX,b=
2XX
YYXX
=
XX
XY
l
l
2线性回归模型的适用条件:①线性:因变量Y与自变量X称线性关系;②独立:每个个体观察值之间互
相独立;③正态性:任意给定X值,对应的随机变量Y都服从正态分布;④等方差性:在一定范围内不同
的X值所对应的随机变量Y的方差相等。简记为LINE。
3总体回归系数β的统计推断:总体回归系数β是否为0的假设检验,可用方差分析或t检验。
4决定系数反映了回归平方和在总平和中所占的比例,常用来反映回归的实际效果。
5线性回归的应用:①用于计算总体条件均数的置信区间以及总体回归线的置信带;②用于计算个体Y预测
值及其预测区间。线性回归常用于统计预测和统计推断。
6线性回归与线性相关的区别与联系:
⑴区别:
①单位:相关系数r没有单位,回归系数b有单位;所以,相关系数与单位无关,回归系数与单位有关;
②应用目的:说明两变量间的关联性用相关分析,说明两者依存变化的数量关系则用回归分析;
③对资料的要求不同:线性回归要求应变量Y是服从正态分布的随机变量;线性相关要求两个变量X和Y
为服从双变量正态分布的随机变量。
④取值范围:-∞
单位;相关系数r说明具有线性关联的两个变量间关系的密切程度与相关方向;
⑤计算:r=
YYXX
XY
ll
l
,b=
XX
XY
l
l
⑵联系:
①方向一致:r与b的正负号一致;②假设检验等价:t
r
=t
b
;③
YYXX
llbr;④用回归解释相关决定系
数(coefficientofdetermination):
总
回SS
SS
l
ll
ll
l
r
YY
XXXY
YYXX
XY
22
2
,回归平方和越接近总平方和,则
r2越接近1,相关性越好。
7服从双变量正态分布的变量,既可以进行两者的线性相关分析,也可以进行线性回归分析,且有tr=tb,
即这两个检验完全等价。线性回归分析与线性相关分析的方向一致。
调查设计
1调查设计是对调查研究所作的周密计划,包括资料收集、整理和分析全过程的设想和安排。
2调查设计包括内容:确定调查目的和指标、确定调查对象和观察单位、确定调查方法、确定资料收集方式、
拟定调查项目和调查表、估计样本含量。
3组织计划:调查员的挑选和调查员的培训。
4整理计划步骤:问卷接受、问卷核查、数据编码、数据录入、拟定整理表、归纳汇总等。
5常用的抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样、非概率抽样。
6各种抽样方法的抽样误差一般是:整群抽样≥单纯抽样≥系统抽样≥分层抽样。
多重线性回归模型
反映一个应变量与多个自变量(k个自变量)的数量依存关系
多重线性回归的数学模型:
ikikii
XXXY
22110i
Β
0
为常数项,β
1
为偏回归系数(Partialregressioncoefficient)
多重线性回归方程为:kk
XbXbXbbY...
ˆ
22110
b0为回归方程的截距项;
bj为样本偏回归系数,意义是在控制其它自变量的情况下,Xj每变化一个单位,Y平均变化bj个单位。
用标准化数据进行回归模型拟合,此时所获得的回归系数,称为标准化偏回归系数(standardizedpartial
regressioncoefficient)。
标准化偏回归系数的数值大小可直接反映各个自变量对反应变量Y的贡献大小。
标准化偏回归系数较大的自变量在数值上对反应变量Y的贡献较大。
多重线性回归分析的前提条件:
线性(Linear)独立(Independent)正态(Normal)等方差(Equalvariance)
偏回归系数的估计:最小二乘法原理:残差平方和最小。
自变量筛选的标准与原则:
1.残差平方和最小
总
残
总
回
-=
SS
SS
SS
SS
R
1
2
适用于比较具有相同自变量个数的模型,不适合自变量个数不同的模型之间的比较。
2.确定系数(R2)最大
确定系数(coefficientofdetermination),或决定系数,记为R2,定义为
总
回SS
SS
R2
反映线性回归模型能在多大程度上解释反应变量Y的变异性。
确定系数取值范围为0-1之间。它越接近1,表示样本数据很好地拟合了线性回归模型。
R2直接反映了回归方程中所有自变量解释反应变量Y总变异的百分比,或者说,R2也可以解释为回归方程
使反应变量Y的总变异减少的百分比。
当回归方程中包含有很多自变量,即使其中有一些自变量对解释反应变量变异的贡献极小,随回归方程自
变量个数的增加,R2表现只增不减,这是确定系数的缺点。
3.残差均方(MSE)最小与调整确定系数()最大
1nk
SS
MS残
残
=
1
12
22
kn
Rk
RR
MS
1
总
残=
MS
统计量最小并且接近k+1的模型较优。
11
ˆ
)(1(
2
k
MS
knCk
p
)+-残
自变量筛选的常用方法
所有可能自变量子集选择(Allpossiblesubtslection)
向前选择法(Forwardlection)
向后剔除法(Backwardlection)
逐步回归法(Stepwilection)
所有可能自变量子集选择:
列出所有可能的自变量子集,共2k-1个。
选择一个或几个最优的回归,称为“最优子集回归”。
适合于自变量个数不太多的情况。
向前选择法
从含常数项的模型开始;比较模型外的所有变量对Y的作用;选择一个作用最大的变量进入模型;直到模
型外没有变量对Y有影响。
向后剔除法
从含所有变量的全模型开始;比较模型内的所有变量对Y的作用;选择一个作用最小的变量剔除模型;直
到模型内的变量对Y都有影响。
逐步回归法
从含常数项的模型开始;比较模型外的所有变量对Y的作用;选择一个作用最大的变量进入模型;
比较模型内的所有变量对Y的作用;选择一个作用最小的变量剔除模型;直到模型外没有变量对Y有影响,
模型内的变量对Y都有影响。
回归模型的诊断
(1)模型的前提假设是否满足?
------线性、独立、正态、等方差(LINE)
(2)异常值
(3)多重共线性
-------多个解释变量之间存在较强的线性关系,使得回归系数的置信区间增大,使得参数的估计精度和
稳定性降低。
1.普通残差(residual)是指观测值Yi与回归模型拟合值之差:
深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。
2.标准化残差(standardizedresidual)
残差图可以帮助研究者检查数据是否满足模型的适用条件以及分析数据中的异常值。
(1)正态性检验:绘制标准化残差的直方图或者残差的正态概率图,如果资料满足正态分布,残差的正态
概率图显示散点在截距为0,斜率为1的直线上分布。图1的正态QQ图显示,有一些数据点偏离直线,提
示数据不服从正态分布。
共线性诊断
3容忍度
取值范围为:0-1,接近1共线性弱,接近0,共线性强。
4方差膨胀因子(varianceinflationfactors,VIF)
VIF>10,说明解释变量xi与模型中其他解释变量有较强的多重共线性;VIF>100,严重
非条件logistic回归模型
横断面研究;病例对照研究;队列研究
建立logit(p)与X的多重线性回归模型:
)
p
p
ln()p(itlog
1
3322110
)
)/1(1
)/1(
(lnXXX
XYp
XYp
)+++(
kk221101
1
XXXe
p
(取值范围-∞~+∞)
回归系数β表示当其它自变量固定不变时,X每改变一个单位,优势对数logit(p)的
改变量(优势比的对数)。
β表示X每改变一个单位,logit(p)的改变量;OR表示暴露者发病的危险性是非暴露者
的若干倍。
可以证明:
病例对照研究中的不同疾病状态下暴露于危险因素这一事件的优势比(OR)等于队列研究
中不同暴露水平下发病这一事件的优势比;
在发病率很低的情况下,后者接近相对危险度。这两点是病例对照研究可用于病因学研究的
重要理论依据
自变量的赋值及回归系数的解释
X为两分类变量(取值为1和0)时,暴露者发病的危险性是非暴露者的exp(β)倍;
X为等级变量(0,1,2,3)时,X每增加一个等级,发病的危险性是前一个等级的exp(β)
倍;
X为连续变量时,X每增加1,发病的危险性是增加前的exp(β)倍(注意实际意义);
X为无序多分类变量时,采用哑变量形式。
常数项表示当所有自变量均为0时优势的对数。
队列研究中,
)e(e001
表示基线状态下,个体的发病率;
病例对照研究中,
)e(e001
表示基线状态下,病例在研究对象中所占比例;
横断面研究中,
)e(e001
表示基线状态下,个体的患病率。
由四格表直接计算的OR实际上就是OR的极大似然估计。
假设检验
1、似然比检验(最可靠)
G=-2(lnL1-lnL2)
G服从X2分布,自由度=两模型自变量个数差。L1变量个数少,L2变量个数多。
似然比检验
检验模型有无统计学意义
模型1:不含协变量;模型2:含协变量
比较两个模型的拟合效果
模型1和模型2可嵌套,也可不嵌套
比较单个变量有无统计学意义
模型1:不含该变量;模型2:含该变量
2、Wald检验(较保守)
)
ˆ
(
0
ˆ
SE
z
检验单个回归系数有无统计学意义
建模策略
在单变量分析和相关自变量分析的基础上,进行多因素逐步筛选;
纳入模型的因素:
单变量分析有统计学意义
专业上有意义
需要调整的混杂因素(始终放在模型中)
1.该因素对结局有影响;2.该因素在分析因素中的分布不均衡;3从专业角度判断,该因素
不能是分析因素与结局关系的一个中间环节。
在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。
样本量的问题:经验上每个自变量要有10个以上观察单位。
模型评价:
统计学评价(-2lnL,AIC等);专业背景评价(好模型应该符合专业背景的解释)
条件logistic回归
定义:配比:对每一个符合入组条件的病例,按配比因素寻找一个(或几个)非病例做为对
照,再比较病例或对照各自以往的暴露经历。
目的:使病例和对照在所控制的配比因素上达到均衡,以提高
优势比的估计精度
配比因素:定性:性别、血型、职业、既往病史
定量:年龄、血压(可以规定一个容许的范围)
注意:事先应具有一定的关于疾病与混杂因素联系的认识时,
才能使配比取得良好的效果。(过渡匹配)
条件logistic回归
)XX()XX()XX(P
PBpApBABA
222111
logit
没有常数项
回归系数解释同非条件logistic回归模型
回归系数β:
表示病例与对照变量值之差与患病优势的关系,即exp(β)表示病例与对照暴露水平相差
一个单位时患病的优势比
不能做预测,只能做因素分析
截距项反映的是无任何自变量影响下的基线水平,各因素的取值仅是反映因素本身的作
用,需要与基线水平共同作用才能产生预测结果。
有序多分类Logistic模型
设结果变量y为
k个等级的有序变量,k个等级分别用1,2,,k表示。
k等级分为两类:{1,,j}与{j+1,,k}
在这两类的基础上定义的logit
属于后k-j个等级的累积概率与前j个等级的累积概率的比数之对数,故该模型称为累积比
数模型(cumulativeoddsmodel)
注意自变量的回归系数与分割点j无关。
logistic回归的应用:校正混杂因素、筛选危险因素、预测、诊断。
比例风险假设(PH假设):
风险比与时间t无关,假定协变量的效应在随访期间不随时间的变化而变化。
验证比例风险假设:
绘制协变量不同水平时的Kaplan-Meier曲线,如果曲线相交,则等比例风险不成立;
绘制协变量不同水平时log(-log(S(t)))与时间的趋势图,如几条线平行,则等比例风险成
立;
检验协变量与时间的交互作用项有无统计学意义。
meta分析
Meta分析又称荟萃分析或系统性评价,是指在取得几个或许多临床试验(或观察性研究)
的研究成果后,再把它们进行合并、综合或整合的一种方法。
功能:定量综合;对同一问题提供系统的、可重复的、客观的综合方法;
通过对同一主题多个小样本研究结果的综合,提高原结果的统计效能,解决研究结果的不一
致性,改善效应估计值;回答原各研究未提出的问题。
Meta分析的步骤和方法
1.提出问题、拟定研究计划
提出问题,应该有清晰明确的定义(PICO_S):
(1)受试者是什么人?Participants
(2)干预措施是什么?Interventions
(3)比较的是什么?Comparison
(4)临床结局是什么?Outcomes
(5)研究设计是什么?Study
根据提出的研究问题,制定入选和排除标准。
2.检索资料
3.选择符合纳入标准的研究
根据纳入标准和排除标准筛选收集的原始文献
根据PICO_S严格纳入
还要考虑
发表的时间
发表的语言
重复发表
4.纳入研究的质量评价
内在真实性就该文章本身而言是评价研究证据的核心,包括:其研究方法是否合理;统计
分析是否正确;结论是否可靠;研究结果是否支持作者的结论等。
临床重要性:研究结果本身是否具有临床价值。评价研究结果的临床价值主要采用一些客观
指标,而不同的研究类型其指标不同。
外在真实性:文章的结果和结论在不同人群、不同地点和针对具体病例的推广应用价值。
这是临床医务工作者十分关心的问题。
4.4随机对照临床试验(RCT)文献常用评价量表
——Jadad量表
Cochrane推荐使用偏倚风险表(‘Riskofbias’table)来进行文献质量评估。该偏倚风险
表包括随机化分组、分组隐藏、盲法、结局数据不全、选择性结局报告和其他偏倚来源等六
大项。
偏倚风险表描述每个研究使用的方法,以及结果是否有偏倚风险,获取更多有关偏倚风险的
评估信息。
队列研究的NOS
队列的选择
暴露队列的代表性很好、较好、差、未描述队列的来源
非暴露队列的选择与暴露来自同一人群
与暴露来自不同人群
未描熟来源
暴露的确定严格确定的记录、结构式问卷调查、自己的记录、未描述。
研究开始时没有研究对象已经发生研究的疾病是否
可比性(可以理解为是否对重要的混杂因素进行了校正)
暴露队列和非暴露队列的可比性
根据最重要的因素选择和分析对照
根据其他的重要因素选择和分析对照
结果
结果的测定方法:独立的、盲法测定或评估;根据可靠的纪录;自己的记录;未描述。
对于所研究的疾病,随访时间是否足够长
随访的完整性:随访完整;随访率大于80%,少数失访,但对失访者进行了描述分析;随
访率低于80%,对失访者没有进行描述;未描述
5.提取纳入文献的数据信息
5.1需提取的数据:文献作者、年代、来源;研究设计特征;研究对象特征;干预特征
评价指标;质量
5.2提取数据的目的
获得原始研究的一般资料;
获得总效应值,如OR及其置信区间CI;
了解临床异质性的情况,如性别,年龄,病程等;
了解可能造成方法学上异质性的原因,如设计类型,随机,盲法的使用等。
6.资料的统计学处理
6.1计算每个研究的效应量
根据资料类型选择单个研究的统计量:
分类变量可选择的统计量:OR,RR,RD
数值变量可选择的统计量:WMD,SMD
用于描述单个研究的实验结果,其结果解释与常规统计描述指标相同。
比值比,OR(oddsratio):常用于病例对照研究(回顾性的病因学分析);
相对危险度,RR(relativeRisk):适用于队列研究,随机对照试验(前瞻性);
率差(绝对危险度),RD(ratedifference)也适用于随机对照试验(前瞻性)。
如果数据资料为每一次试验中采用同一种标准化方法测量得出,则使用加权均数差WMD,
比如,身高、血压、生化指标等。
若各试验数据的量纲不同或均数差别很大时,则用标准化均数差SMD,例如,同一种疾病
多种设计不同的评分量表的情况。
6.2计算每个研究的权重
恰当的方法是:将较多的权重分配给能使我们获得较多信息的研究,这些研究的特点:
较多的研究对象
较多的临床事件
较低的变异
6.3计算合并效应量
将多个独立研究的结果合并(或汇总)成某个单一的效应量(effectsize)或效应尺度(effect
magnitude),即用某个指标的合并统计量,以反映多个独立研究的综合效应。
固定效应模型(fixedeffectmodel):
若多个研究具有同质性(无异质性)时,可使用固定效应模型。
随机效应模型(randomeffectmodel):
若多个研究不具有同质性时,先对异质原因进行处理,若异质性分析与处理后仍无法解决异
质性时,可考虑使用随机效应模型。但是,该法不能控制混杂、也不能校正偏倚或消除产生
异质性的原因,因此作出的结论应较保守。
6.4异质性检验
按统计原理,只有同质的资料才能进行合并或比较等统计分析,反之,则不能。
因此,Meta分析过程需要对多个研究的结果进行异质性分析,尽可能地消除导致异质的原
因,使之达到同质。
用假设检验的方法检验多个独立研究是否具有异质性
若异质性检验的检验结果为P>0.10时,多个研究具有同质性,可选择固定效应模型;
若多个研究结果为P≤0.10时,多个研究不具有同质性,首先应进行异质性分析和处理,若
仍无法消除异质性的资料,可选择随机效应模型。
I2≤25%为低度异质性,25%~50%为中度异质性,I2>50%则为高度异质性,I2>70%则不
能直接合并。
临床异质性(概念上的异质性):参与者不同、干预措施的差异及研究的终点指标不同所导致
的变异。
方法学异质性:由于试验设计和质量方面的差异引起的。
确保纳入研究临床上的同质性:
(1)首先要制定严格、统一的纳入和排除标准,只有具有相同研究目的、高质量的研究才
能纳入分析;
(2)其次,考虑研究对象、处理因素等的一致性。
为保障方法学上的同质性,还必须对将合并的研究进行严格的质量评价。
亚组分析的目的是探讨异质性的来源。
在严格实施既定的纳入排除标准之后,能保证最终纳入的研究具有较好同质性。如果此
时纳入研究仍有异质性,我们可以按不同设计方案、研究质量、参加人群特征、治疗时间的
长短等分成亚组,进行亚组分析,即把相同条件的研究分为一个亚组,再对其进行异质性分
析。
用假设检验的方法检验合并效应量是否具有统计学意义,其原理与常规的假设检验完全
相同。
两种方法:
①u检验(Ztest)②卡方检验(Chisquaretest)
根据z或(u)值或卡方值得到该统计量下概率(P)值。
若P≤0.05,多个研究的合并效应量有统计学意义;
若P>0.05,多个研究的合并效应量没有统计学意义
若选择OR或RR为合并统计量时,其95%的可信区间与假设检验的关系如下:
若其95%CI包含了1,等价于P>0.05,即合并统计量无统计学意义。
若其95%CI的上下限均大于1或均小于1,等价于P<0.05,即合并效应量有统计学意义。
若选择WMD或SMD为合并统计量时,其95%CI与假设检验的关系如下:
若其95%CI包含了0,等价于P>0.05,即合并统计量无统计学意义。
若其95%CI的上下限均大于0或均小于0,等价于P<0.05,即合并效应量有统计学意义。
OR和RR的森林图(forestplots),每条横线为该研究的95%可信区间上下限的连线,其线
条长短直观地表示了可信区间范围的大小。
WMD和SMD的森林图,无效线竖线的横轴尺度为0,每条横线为该研究的95%可信区间
上下限的连线,其线条长短直观地表示了可信区间范围的大小。
7敏感性分析
目的是分析结果在多大程度上受到改变分析方式而会发生改变(即敏感程度)。
重新进行Meta分析,与未排除异常结果研究的Meta分析结果进行比较,探讨被去除的研
究对合并效应的影响程度,如:纳入低质量的研究;采用不同的统计学方法分析资料(如固
定效应模型和随机效应模型所得的结果一致,本身就是敏感性测试,本身就说明了所整合
的结果很稳定。);纳入未发表的研究。
如果敏感性分析逆转了结果则应对其结果慎重。如果结果一致则这些因素对结果影响不大,
证据可靠性强。
若敏感性分析得到的结果和前述结果差别较大甚至截然相反结论,说明敏感性较高,结果的
稳健性较低,在解释结果和下结论的时候应非常慎重,提示存在与干预措施效果相关的、重
要的、潜在的偏倚因素,需进一步明确争议的来源。
8发表偏倚(主要偏倚为抽样偏倚、选择偏倚和研究内偏倚)
主要用漏斗图来观察某个系统评价或Meta分析结果是否存在偏倚,如发表偏倚或其他偏倚。
如果资料存在偏倚,会出现不对称的漏斗图,不对称越明显,偏倚程度也就越大。漏斗图的
不对称性主要与发表偏倚有关,但也可能存在其他原因。
9撰写报告
(一)材料与方法:此部分要写明文献入选和排除标准、资料来源、统计分析方法等。
(二)结果:先对入选文献的基本情况加以描述,再进行各研究结果的合并和彻底的敏感性
分析。可以使用直观的图示方法表示meta分析的结果。
(三)讨论
对可能存在的偏倚进行详细的讨论。
结果的解说要小心谨慎,不能脱离专业背景。
应当详细阐述结果的真实性
应详细分析研究的异质性。
Meta分析的适用与不适用
适用:
两个以上的研究;
各研究之间的特性没有可影响它们结果的差异;
各研究的结果采用相似的方法进行测量
各研究的资料都可用(当有的资料仅部份可用时应多加当心)
不适用:
缺乏相关的和可靠的资料
切记:进行分析的目的是对最佳证据的概括
误导的资料比缺乏资料更糟糕
缺乏合理性(没有实际意义)
切记:进行分析的目的是帮助人们对医疗保健做决策
自变量的赋值及回归系数的解释
X为两分类变量(取值为1和0)时,暴露者发病的危险性是非暴露者的exp(β)倍;
X为等级变量(0,1,2,3)时,X每增加一个等级,发病的危险性是前一个等级的exp(β)
倍;
X为连续变量时,X每增加1,发病的危险性是增加前的exp(β)倍(注意实际意义);
X为无序多分类变量时,采用哑变量形式。
生存分析
生存时间(survivaltime):又称失效时间(failuretime):定义为观察对象从起始事件到终
点事件所经历的时间,用t表示。生存时间的分布不是正态分布,多为正偏峰分布。
删失(censored):随访过程中,由于某种原因未能观察到研究对象出现终点事件,无法
得到确切的生存时间,用t+表示。删失数据也称不完全数据(incompletedata)
删失的原因:失访;生存期超过研究终止期;病人因死于其他原因等终止观察
数据特点:
生存时间的分布为非正态分布
对数正态分布
指数分布,Weibull分布
Gamma分布,logistic分布,……
含有删失数据(censoreddata):删失数据提供的信息是不完全的(uncompleteddata)
因变量有两个:生存时间和结局
生存函数(survivalfunction):又称累积生存概率(cumulativeprobability
ofsurvival),简称生存率,记为S(t),指观察对象经历时刻t后仍存活的概率。
S(t)=P(T≥t),S(0)=1,S(∞)=0,为单调递减函数。
生存率的估计:如无删失数据
观察总例数
时刻仍存活的例数t
tTPtS)()(,如有删失数据,
分母需要分时段校正。
生存率的估计
(1)小样本时,不需要对生存时间进行分组,常用乘积极限法(product-limited,PL),也称
Kaplan-Meier(K-M)法估计生存率。
(2)大样本时,需要对生存时间进行分组,常用寿命表(lifetimetable)法估计生存率。
属于非参数方法
生存概率:指单个时段的生存概率。
生存率:指从0时刻开始到t时刻各个时段生存概率的累积概率。
中位生存时间(mediansurvivaltime):表示50%的个体活过此时间,即生存率50%所对
应的生存时间。当删失数据>样本量的50%时,无法估计中位生存时间,宜用生存时间超过
一给定时间长度的概率(如3年生存率或5年生存率)来描述。
生存曲线分析
高度和坡度:曲线下降速度快,图形坡度大,曲线陡峭,生存率较低,生存期较短;反之,
生存率较高,生存期较长。
log-rank检验对组间死亡的远期差异敏感,而Breslow检验对组间死亡的近期差异敏感。
Log-rank检验:也称时序检验,用于两组或多组生存率比较,基本思想是实际死亡数和期
望死亡数之间的比较,属于非参数检验。为单因素分析方法。
m
k
kT
TkAk
X
1
2
2)(
V=m-1,m为比较组数
Log-rank检验应用条件:要求各组生存曲线不能交叉。若有交叉,提示存在混杂因素,应
用分层分析或多因素分析来校正混杂作用。主要用于估计生存率及进行单因素分析。
概率密度函数:又称死亡密度函数,指观察对象在t时刻的瞬时死亡率,记为f(t),
累积分布函数,也称死亡概率,指观察对象从观察开始到t时刻为止的死亡概率
风险函数(hazardfunction):又称危险率函数、条件死亡率、人时死亡率等,
记为h(t),表示t时刻仍存活的个体(T>t)在(t,t+Δt)内死亡的概率
Cox回归模型:也称比例危险(proportionalhazards,PH)模型,属于半参数模型,乘法模
型。
h(t,x):具有协变量X的个体在t时刻的风险函数。表示这些个体在t时刻的瞬时危险率或
死亡率。
h0(t):称为基准风险函数,是与时间有关的任意函数。表示所有X取值为0时的个体在t
时刻的瞬时危险率或瞬时死亡率。
X:与生存时间有关的协变量或交互项,可以定性或定量在整个观察时间其效应不随时间的
变化而变化。
风险比(hazardratio,HR):也称相对危险度(relativerisk,RR),指同一时点两组的风
险函数之比。风险比与时间t无关,假定协变量的效应在随访期间不随时间的变化而变化。
回归系数Bj的含义:
其他协变量不变时,自变量每变化一个单位所引起的相对危险度的自然对数值。
ln
jj
RR
COX模型“以生存时间和生存结局为因变量”,为半参数模型,若h0(t)的函数形式已知,
为参数模型。
本文发布于:2023-01-30 11:43:03,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/161873.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |