线性回归
上一章讨论的线性相关用于描述两个随机变量X与Y之间线性联系的程度,结论所反映的是它们相互之间的关系,两变量并无主次之分。
随着所探索问题的深入,研究者通常更感兴趣于其中的一个变量如何定量地影响另一变量的取值,如医学研究中常需要从某项指标估算另一项指标,如果这指标分别是测量变量X和Y,我们希望由X推算Y的值。我们称X为自变量,Y则称为依赖于X的因变量。
如果Y与X的关系呈线性时,我们可以用线性回归(linear regression)描述两者的关系。
回归的概念:
100多年前,有位英国遗传学家(Galton)注意到当父亲身高很高时,他的儿子的身高一般不会比父亲身高更高。同样如果父亲很矮,他的儿子也一般不会比父亲矮,而会向一般人的均值靠拢。当时这位英国遗传学家将这现象称为回归,现在将这概念引伸到随机变量有向回归线集中的趋势。
即观察值不是全落在回归线上,而是散布在回归线周围。但离回归线越近,观察值越多,偏离较远的观察值极少,这种不完全呈函数关系,但又有一定数量的关系的现象称回归。
EMBED Excel.Chart.8 \s
二.线性回归的统计描述:
(一)线性回归的方程:
EMBED Equation.3
EMBED Equation.3 =a + bX
(二)线性回归的参数估计:
线性方程:Y=a+bX
回归方程: EMBED Equation.3 =a+bX
式中a,b是决定回归直线的两个系数。
a为截距,b为回归系数,即直线的斜率。
b的统计学意义是X每增加(减)一个单位,Y平均改变b个单位。
怎样的 EMBED Equation.3 最好地代表了所有的Y,需要有个标准。
经典的标准是最小二乘(least squares)原则:每个观察点距离回归线的纵向距离的平方和最小。
EMBED Equation.3
得: EMBED Equation.3 EMBED Equation.3
用例8.1,示范线性回归的计算过程:
EMBED Equation.3
EMBED Equation.3 =74.17+0.5698X
三.回归系数的统计推断:
(一)回归系数的假设检验(t检验):
1. 建立检验假设:H0:β=0,H1:β≠0,α=0.05
2. 计算统计量t: EMBED Equation.3 υ=n-2
先计算剩余标准差s:
已知: EMBED Equation.3 EMBED Equation.3
b=0.5698
EMBED Equation.3
EMBED Equation.3
s为剩余标准差:即去除X对Y的作用后,Y的变异。
回归系数的标准误为:
EMBED Equation.3
EMBED Equation.3 ( EMBED Equation.3 )
3. 确定概率和判断结果:υ=n-2=20-2=18,P<0.01,拒绝H0,可认为回归系数有统计学意义。
(二)回归方程的假设检验(方差分析,ANOVA):
建立检验假设: H0:回归无贡献
H1:回归有贡献 α=0.05
2. 计算
统计量F:
方差分析的基本思想:将总的变异分离成各个部分,确定各部分变异的来源,然后将处理因素的变异与随机变异(误差)比较。如果比值接近1,说明都是随机变异,如果比值远大于1,说明处理变异中除随机变异外还有效应变异存在。
在Y的总变异(总离均差平方和)中,包含回归离均差平方和和残差离均差平方和。 即:SST = SSr + SSe
总SST是: EMBED Equation.3
友谊之桥
回归SSr是: EMBED Equation.3
残差SSe是:698.55-603.63=94.92
方差分析的统计量是F值:
EMBED Equation.3
变异
来源 离均差平方和
(SS) 自由度
(υ) 均方
(MS) F值 回归 603.63 1 603.63 114.54 残差 94.92 18 5.27 总 698.55 19
3. 确定概率和判断结果:查υ1=1和υ2=18的F界值(附表6.1), 得F=4.41,P<0.05,可以认为回归有贡献。
(★ EMBED Equation.3 分子的自由度为1时, EMBED Equation.3 )
(三)确定系数:
会议室设计方案相关系数的平方称为确定系数,它反映回归贡献的程度。相当于在总离均差平方和中回归能解释的百分比。即说明回归贡献占Y的总变异中的比例。
EMBED Equation.3
本例r=0.9296,R2=0.8641,即由父亲的身高信息大约可解释儿子身高变异性的86%。
四.几种置信区间估计:
1. β的置信区间:
EMBED Equation.3
意义:估计X对Y的效应有多大,如例9.1:回归系数为0.5698,置信区间是(0.48, 0.68),说明儿子身高起码有一半是受父亲影响的。
2. EMBED Equation.3 的置信区间:
EMBED Equation.3
自我介绍英文翻译EMBED Equation.3
意义:当估计出Y的值( EMBED Equation.3 ),根据置信区间可以知道误差有多大。如例9.1:某父亲身高165.8cm,估计他儿子的身高是168.64cm,置信区间是167.51~169.77cm,误差不大。
3. 个体Y值的预测区间:
EMBED Equation.3
EMBED Equation.3
意义:在X取值为x*时,Y的参考值范围(Reference range)。如例9.1:某父亲身高165.8cm,估计他儿子的身高是168.64cm,Y的参考值范围是163.68~173.59cm。
如:建立年龄与血压的线性回归方程后,可估计每个年龄的血压参考值范围。
五.回归的应用:
1. 预测:由X预测Y的值。例:由父亲身高预测儿子成人后身高。
2. 控制:由Y值控制X的取值范围。
已知空气氮氧化物(Y)的污染与汽车流量(X)的回归关系,当确定Y的标准后,控制X的值。
3. 减少变异(标准差),更准确地估计参考值范围。静态运动
例:制定不同年龄的血压正常值范围。
六.线性回归的类型与条件:
(一)线性回归的类型:
Y随机变量,服从正态分布,X人为取值,
称Ⅰ型回归。 (浓度与光密度)
Y随机变量,服从正态分布,X也为随
机变量,服从正态分布,称Ⅱ型回归。(父高与子高)
(二)线性回归的条件:
1. 线性(linear): EMBED Equation.3
2. 独立(independent)
3. 正态(normal) :Y值服从正态分布。
EMBED Equation.3
当心用英语怎么说
4. 等方差(equal variance):σx2=σ2
“LINE”
蝴蝶的家在哪里七.线性回归与相关的区别和联系:
区别:
资料上: 相关要求X与Y为随机变量,且X和Y服从正态分布(双变量正态分布)。
回归要求Y为随机变量,服从正态分布;X可人为取值,称Ⅰ型回归。
X与Y为随机变量,均服从正态分布;称Ⅱ型回归。
应用上: 说明变量间的依存变化关系用回归;
说明变量间的相关变化关系用相关。
伤感情歌联系:
同一组资料,r与b正负号一致。
同一样本,tr=tb。
用回归解释相关。 EMBED Equation.3
第十章 非线性回归(Nonlinear regression)
医学研究中X和Y的数量关系常常不是线性的,如毒物剂量与动物死亡率,人的生长曲线,药物动力学等,都不是线性的。如果用线性描述将丢失大量信息,甚至得出错误结论。这时可以用非线性回归或曲线拟合方法分析。
常用非线性函数
1. 幂函数(Power function):Y=aXb
上式两边取对数后,得lnY=lna+blnX。
2. 对数函数(Logarithmic function): Y=a+blnX
3. 指数函数(Exponential function): Y=aebX =aexp(bX) 四年级科学小制作
对上式两边取对数,得:lnY=lna+bX
4. Logistic函数(logistic function): EMBED Equation.3
上式可转换成线性形式: EMBED Equation.3
5. 多项式函数(polynomial function)
Y=a+b1X+b2X2+…+bpXp
如抛物线是二次多项式。
注意各种曲线的特征,但在实践中常常是根据生物学机制理论决定曲线种类。
非线性回归曲线的拟合
1. 利用线性转换后再作线性回归拟合
前面介绍的常用曲线函数都可以通过数学转换,使之成为线性函数。最简单的曲线拟合就利用这性质,作线性拟合,基本步骤如下:
a. 绘制散点图,决定曲线类型。
b. 通过数学转换将曲线转换成直线方程。
c. 估计线性回归方程的参数、计算确定系数和作回归方程的方差分析。
d. 转换为原方程,绘制曲线图。
2. 非线性回归参数的最小二乘估计
线性转换后用线性回归的参数估计方法虽然计算较简单,但有时估计效果不理想。特别是需要对Y作数学转换时,由于线性回归的最小二乘是对转换后的Y而不是直接对Y,因此估计的曲线可能拟合原资料并不理想。
理想的方法是直接用最小二乘原则估计非线性回归的参数。
***[JimiSoft: Unregistered Software ONLY Convert Part Of File! Read Help To Know How
To Register.]***