64
数理统计与管理 第25卷 第5期 2005年9月
文章编号:1002—1566(2005)05—0064—04
经典的用回归模型进行统计控制中的问题
孙尚拱,何平平
(北京大学卫生统计教研室,北京,100083)
摘要:利用回归模型进行统计控制,在实际工作中一直得到广泛应用。通常采用的方法是利用回
^^
=a+bx进行逆估计,-a)归模型y即根据回归模型的变换x=(y/b,由应变量Y的取值范围反推
自变量
X的取值范围。本文指出这种方法是很不合理的;进一步提出二种相对合理取代的统计方
法。
关键词:回归模型;统计控制
中图分类号:
O212文献标识码:A
ProblemofTraditionalStatisticalControlinRegressionModel
SUNShang-gong,HEPing-ping
(DepartmentofHealthStatistical,PekingUniversity100083)
Abstract:Statisticalcontrolinregressionmodelhasbeenappliedwidelyinpractice.Itisanusualmethodtoestimate
^^
=a+bx.Thatistosay,accordingtotheinverformofregressionmodelx=-reverlyinregressionmodel(
yy
a)/b,wecandeducetherangeofindependentvariableXfromtherangeofdependentvariableY.Butthemethodis
notlogicalinstatistics.Thearticleoppugnsthemethodoftraditionalstatisticalcontrolbytheoryofandfurnishtwo
methodstosubstitutetraditionalmethod.
Keywords:regressionmodel;statisticalcontrol
回归模型的应用中有两个方面:统计预测(statisticalforecast)和统计控制(statisticalcon-
^
=a+bx,trol)。所谓预测就是根据回归模型y把自变量x代入回归模型对应变量Y进行估计,
其波动范围可按求个体Y值置信区间方法计算。统计控制则正好与此相反。统计控制中的
^
-a)常用方法是利用回归模型进行逆估计,即根据回归模型的变换x=(/b,由应变量y的取
y
值范围反推自变量
x的取值范围。
[1][,2][,3][,4]
。本文对传统的利用回
目前国内外文献及书籍中,基本上都是上述的逆推理法
归模型进行统计控制的理论提出质疑;通过实例,说明了传统方法在理论及实用中都是不妥的。
1 用回归模型的逆推理做统计控制存在理论上的问题
记应变量
Y对自变量X的直线回归模型为
^
=a+bxy(1)
解出
^
-a)x=(y/b(2)
今要求应变量Y只能在给定的范围内波动,试求自变量X的取值范围。经典做法:由(1)
收稿日期:2004年03月10日
孙尚拱,何平平:经典的用回归模型进行统计控制中的问题
^
,把应变量Y的取值范围代入(2)中的y再反推自变量X的取值范围。
[5]
实例分析
65
美国某家医院为了预测低出生体重(出生体重2500g),现收集一组数据用于建立预报
≤
公式。测量31名临产孕妇的尿中雌三醇浓度(Estriol,mm/24hr)以及此后出生的婴儿体重
(Birthwei,单位:g/100)。测得数据如下:
雌三醇浓度(mm/24hr):
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15 16 17 25 27 15 15
15 16 19 18 17 18 20 22 25 24
出生体重(g/100,与上顺序对应):
25 25 25 27 27 27 24 30 30 31 30 31 30 28 32 32 32 32 34 34
34 35 35 34 35 36 37 38 40 39 43
问题:雌三醇浓度取何值,能预测临产孕妇将会有低出生体重的婴儿?
根据传统的方法是以
Estriol为自变量(x),Birthwei为应变量(y),建立线性回归模型:
Birthwei的估计值=21.523+0.608×Estriol(3)
-
残差标准差s=3.8211,lxx=677.42,x=17.2258。
e
把Birthwei=25代入回归模型(3)式,得
25=21.523+0.608×Estriol
解得 雌三醇浓度值为
Esriol=5.7178(mm/24hr)
一般预测法就是:当孕妇尿中雌三醇浓度
≤
5.7178mm/24hr时,就预测出生婴儿体重会低于
2500g。
问题:(1)如上述问题中的y是正态随机变量(单纯的拟合时,回归问题可用于非随机变
量)时,上结果能给出把握度(概率)吗?一般是没有也不考虑的。如果考察概率,我想,按回
归理论应计算
Estriol=5.7178(mm/24hr)时应变量Birthwei的置信区间,即根据下面公式估计
Birthwei(y)的95%置信区间(双侧):
0
^^^
031-200exx0
±t))=s( 其中(1+1/n+(x-x)/l
yyy
根据此公式,Estriol=5.7178(mm/24hr)时Birthwei的95%置信区间为:
2
25±2.045×3.8211+1/31+(5.7178-17.2258)/677.42=(16.3418,33,6582)
ヘ
此结果表明:当Estriol>5.7178(mm/24hr)时,Birthwei值低于2500克的机会近似于50%,换
2
ヘ
Birthwei值高于是2500克的机会也只有50%!此结果对于预测低出生体重能有什么句话说,
实际意义?
问题(
2)上述的逆推理法求自变量(x)的值合理吗?即我们能否把回归公式当作普通的数学
^
=a+bx中,自然的有2=3-1那样逆推?答案应是否定的。理由是1+2=3,
y式子:比如
2
^
ii
)(a,b)是按下述代数学原理求出: (y-y=min
Σ
注意此公式仅考虑‘用x去拟合y’,而不是同时拟合(x,y)。也就是说,回归公式的使用只能
是单向的,它不应该当作‘1+2=3,自然的2=3-1’那样的可以双向使用!
2 合理的统计方法
根据回归理论,上述实例应把Estriol作为应变量(仍记x),而以Birthwei为自变量(仍记
66
数理统计与管理 第25卷 第5期 2005年9月
作y),从而且建立线性回归模型。由上数据可得:
Estriol=-2.335+0.611×Birthwei,(4)
残差标准差
s=3.8308,
e
Birthwei,均数(y)=32
Birthwei,的l=674
yy
当Birthwei=25时,Estriol的估计值为
Estriol=-2.335+0.611×25=12.940(单位)(5)
^
0
)Estriol=12.940(单位)的(为:
x
^
0e0yy
)=s(x1+1/n+(y-y)/L=3.83081+1/31+(25-32)/674=4.0268
Estriol=12.940(单位)的95%下侧临界值为
ヘ
ヘ
12.940-t×4.0268=12.940-1.699×4.0268=6.098
0.05(单)
即如Estriol正态性成立,则Estriol<6.098时,仅有5%的概率认为孕妇将出生“低体重”的婴儿。
3 另一统计方法
上法中的一个统计理论问题:当x不是随机时(比如,x=每亩化肥量,y=每亩作物产
量),公式(
4)似乎不合理。但应注意:公式(3)及(4)都是代数学中的数据拟合,它们根本没
有涉及变量的‘随机分布’!随机性是仅当要求找出‘概率及置信区间’时才有要求。如果x
不是随机而y是正态,要求只能由(4)出发而计算结论的概率时,可以从下面不等式中求待估
^
00
的95%区间的下限为:x:利用yy
的下限
≥
a+bx-ts1++=y(5)
0n-2e0
22
^^
00
的95%区间的上限为利用yy的95%区间的上限为利用y<y
≤
cx+cx+c=0(6)
10203
2
上两式都化简变为同一式求根:
lb2ll
xxxxxx
2
n+1
22
其中l
c=。=-1,c=(a-y)b+2x,c=(a-y)-x-
12030xx
222
n
(ts)(ts)(ts)
eee
此例中 y=25,t=1.699,s=3.8211,l=677.42,x=17.2258,
0n-2exx
a=21.523,b=0.608,n=31
代(6),可解得:x=-9.7904(单位),x=-16.5706(单位)。x=-9.7904(单位),x=
01020101
-9
.790对应于单侧下限,负数是明显的不合理。说明本文的实例如从(3)出发求95%下限
是不存在的。
4 一个严重的问题
利用回归模型做逆推理从而找出需要控制的阈值,在国内外的实际工作中一直得到非常
广泛的应用。但从本文可见,目前国内外对于统计控制的应用,普遍存在有误区。问题的严重
性在于国内外一直都在用(
3)的逆推法制定世界及国内的食物营养、药品、毒品、环境及各种
标准!而由上讨论可见,已有的标准是多么的错误!
ヘ
2
1
(x-x)
0
nl
xx
孙尚拱,何平平:经典的用回归模型进行统计控制中的问题
[参考文献]
[1] BernardRosner.FundamentalsofBiostatistics,5editionBrooks,2000.
th
[2] 刘定远.医药数理统计方法[M].北京:人民卫生出版社,1999.
[3] 倪宗赞.卫生统计学(第四版)[M].北京:人民卫生出版社,2000.
[4] 胡健颖,冯泰.实用统计学[M].北京:北京大学出版社,1999.
[5] 孙尚拱译.生物统计学基础.[M].北京:科学出版社,2004.
67
(上接第49页)
[参考文献]
[1] 方开泰.均匀设计[J].应用数学学报,1980,3:363-372.
[2] 方开泰.均匀设计及其应用[J].数理统计与管理,1994,13:57-63.
[3] 方开泰.均匀设计与均匀设计表[M].北京:科学出版社,1994.
[4] 方开泰、马长兴.正交与均匀试验设计[M].北京:科学出版社,2001.
[5] 方开泰、王元.数论方法在统计中的应用[M].北京:科学出版社,1996.
[6] 唐启义.http:(网站).www.statforum.com
∥
[7] 唐启义、冯明光.实用统计分析及其DPS数据处理系统[M].北京:科学出版社,2002.
[8] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.
[9] 张承恩.http:(网站).ust40.html.533.net
∥
(上接第59页)
[参考文献]
[1] 范金城(FanJincheng)等,统计推断引论[M].科学出版社,2001.8:203-209.
[2] 汪峰,于尔铿,闫承山等.基于因素影响的电力系统短期负荷预报方法的研究[J].中国电机工程学报,
1999,19(8):54-58.
[3] 何晓群等.应用回归分析[M].中国人民大学出版社,2002.9.
本文发布于:2023-05-25 13:07:33,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1684991254178088.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:用经典的回归模型进行统计控制的问题.doc
本文 PDF 下载地址:用经典的回归模型进行统计控制的问题.pdf
留言与评论(共有 0 条评论) |