adjacent

更新时间:2023-01-04 04:14:41 阅读: 评论:0


2023年1月4日发(作者:s开头的女生英文名)

第八章离散因变量模型

离散(分类)因变量模型(ModelswithDiscrete/Categorical

DependentVariables)分为二元选择模型(BinaryChoiceModels)和

多类别选择(反应)模型(MulticategoryChoice/Polytomous

ResponModels)。在多类别选择模型中,根据因变量的反应类别

(responcategory)是否排序,又分为无序选择模型(Multinominal

ChoiceModels)和有序选择模型(OrderedChoiceModels)(也称有

序因变量模型OrderedDependentVariableModels、有序类别模型

OrderedCategoryModels等)

一、二元选择模型

设因变量

1、线性概率模型(LPM模型)

如果采用线性模型,

给定,设某事件发生的概率为P

i

,则有

所以

称之为线性概率模型。

不足之处:

1、不能满足对自变量的任意取值都有。

2、

3、

所以线性概率模型不是标准线性模型。

给定,为使,

可对建立某个分布函数,使的取值在(0,1)。

2、Logit模型(Dichotomous/BinaryLogitModel)

Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻

辑概率分布函数(CumulativeLogisticProbabilityFunction)(e为自

然对数的底),逻辑曲线如图4-1所示。其中,二元Logit模型是掌握多

类别Logit模型的基础。

图4-1逻辑曲线(LogitCurve)

以二元选择问题为例,设因变量有0和1两个选择,由自变量来决

定选择的结果。为了使二元选择问题的研究成为可能,首先建立随机

效用模型:

令表示个体i选择=1的效用,

表示个体i选择=0的效用,

显然当时,选择结果为1,反之为0。将两个效用相减,即得随机效用

模型:

记为(4-1)

当时,,则个体i选择=1的概率为:

若的概率分布为Logistic分布,则有

即(4-2)

式(4-2)即为最常用的二元选择模型——Logit模型。

二元Logit选择模型的参数估计通常使用最大似然估计法,令似然

函数,再求似然函数L的对数值最大时的参数估计量。

对(4-2)式进行适当的变换,得

即(4-3)

式(4-3)与式(4-2)是等价的,而且更易于解释,式中为个体i做

出选择1的机会比(odds),式中的因变量是机会比(odds)的自然对

数,参数的含义为自变量每增加一个单位机会比(odds)的自然对数

增加的数值。在多类别选择模型中,通常也是以机会比的自然对数

(log-odds)作为因变量建立关于自变量X的线性模型,统称为Logistic回

归。

3、Probit模型

同Logit模型的推导,不同在于取分布函数的形式为标准正态的分

布函数,则有。

二、多类别Logit模型(PolytomousLogitModel)

对于多类别选择问题,即离散因变量有两个以上的选择类别,可建

立多类别Logit模型来研究。根据因变量可供选择的结果类别是否排

序,有几种不同类型的Logistic回归,有的只适用于排序选择模型(如

Cumulativelogitmodels,AdjacentCategoriesModels等),有的对于

非排序选择模型也适用(如BalineLogitModels,ConditionalLogit

Models等)。

1.基准类别Logit模型(Baline-CategoryLogitModel)

对于非排序选择问题,通常用基准类别Logit模型来研究。

设离散因变量有类可能结果,令代表个不同的结果类别,各类结

果之间相互独立,不存在等级排序关系,定义代表个体选择结果,则

个体的可能选择;为个影响因变量选择结果的自变量;定义为个体选

择结果的概率,即,则个体做出各类选择的概率,。以作为基准类

别,可定义个机会比的自然对数(log-odds),引入自变量,则可得基

准类别Logit模型(Baline-CategoryLogitModel)如下:

(4-4)

式中,,,为样本容量,为自变量个数;

,,为离散因变量结果分类的个数。

可见,模型(4-4)中包括个方程,有个待估参数。

与模型(4-4)等价的是各类结果出现的概率函数,当为非基准类

别,即时,

(4-5)

当为基准类别,即时,

(4-6)

模型(4-4)—(4-6)是等价的,同样可以用最大似然估计法进行参数

估计,通过的联合概率函数导出似然函数:

(4-7)

其中,,如果个体选择结果;反之,。把(4-5)式和(4-6)式代入

(4-7)式并取对数得对数似然函数,再通过对数似然函数最大化的一

阶条件求解模型参数。

模型(4-4)的参数表示当其它自变量保持不变时,自变量每变化

一个单位,个体的选择落入第类的概率对比落入第类的概率得到的机

会比对数(log-odds)变化个单位。

对于基准类别(Baline-Category)Logit模型而言,任可一个类

别都可被选作基准类别,不会影响模型的拟合,只是式(4-4)的参数

估计值及其解释发生变化,模型的对数似然函数值和因变量各个类别

的概率预测值都不会改变。

基准类别(Baline-Category)Logit模型非常灵活,通过式(4-

4)可以求个体的选择落入任意两个类别的机会比对数(log-odds),

如要求结果对比结果的机会比对数,有

(4-8)

2.相邻级别Logit模型(Adjacent-CategoryLogitModel)

若因变量各选择类别之间存在排序等级关系,如研究个体对某一

产品的偏好程度,用1,2,3分别代表厌恶、一般、喜欢,则因变量

Y=(1,2,3)为排序因变量(OrderedDependentVariable),对应

的排序选择问题可以用相邻级别(Adjacent-Category)Logit模型来研

究。

设排序因变量有个选择类别,,代表第个选择;代表各个选择出

现的概率(为简便起见,省略表示个体的下标,下同);代表个影响

个体选择的自变量。定义个体的选择落入相邻两个级别的机会比对数

(log-odds)为,引入自变量,可得相邻级别(Adjacent-Category

)Logit模型如下:

()(4-9)

或()

模型(4-9)包括个回归方程和个待估参数。

相邻级别(Adjacent-Category)Logit模型与基准类别(Baline-

Category)Logit模型(4-4)最大的区别在于它考虑了因变量的各选择

类别之间的等级排序关系,并假设自变量对任意两个相邻级别的机会

比对数的影响系数是相同的,因此模型(4-9)中回归系数在所有相邻

级别的回归方程中数值是一样的。事实上,若在基准类别(Baline-

Category)Logit模型(4-4)中加入因变量各类别内在等级排序的约束

条件,可以得到与(4-9)式等价的相邻级别(Adjacent-Category)Logit

模型。

假设对排序因变量,选择基准类别,根据式(4-4)建立Baline-

CategoryLogit模型:

(4-10)

由于因变量的取值是排序的,因此如果自变量有助于提高的等级(设

的等级高于),则增加一个单位,取值为的可能性大于取值为的可能

性,这意味着。不失一般性,假设对于任意均有,,并假设随着等级

的提高而成比例增加,不妨设,,将约束条件代入(4-10)式,则可

求得(4-9)式的相邻级别(Adjacent-Category)Logit模型:

同理,可求得相邻个等级的任意两个类别的机会比对数为:

(4-11)

模型(4-9)同样可以用极大似然估计法估计,利用计量软件包可

以方便地求得因变量的取值落入各个等级的概率,模型参数表示当其

它自变量保持不变时,自变量每变化一个单位,因变量的取值落入任

意两个相邻等级和的机会比对数(log-odds)都变化个单位。

3.比例优势累积Logit模型(Proportional-OddsCumulativeLogit

Model)

比例优势模型(ProportionalOddsModel,简称POM)也称累积

Logit模型(cumulativelogitmodel),最早由McCullagh(1980)提出,

是排序Logistic回归中最常用的模型。目前,POM广泛应用在社会经

济统计学和生物医学统计领域。与相邻级别(Adjacent-Category)Logit

模型相比,POM更适合研究自变量的变化对因变量等级变化的影响效

应,即自变量数值的增加或减小是否有助于因变量级别的提高或降

低。

POM假设排序因变量的类别等级受不可观测的潜变量的影响,并

且存在个未知的潜在分割点(cutpoint或threshold),将分为个等级

1,

即:

若是自变量的线性函数,则,代表个自变量,,设服从Logistic分布,

则可得的累积概率函数:

(4-12)

比例优势模型(POM)就是使用累积概率来定义机会比(odds):

(4-13)

式(4-13)表示的等级大于与的等级小于或等于的概率比,odds数值

越大,说明的等级大于的可能性越大。相应的机会比对数(log-odds)

为:

将(4-12)式代入机会比对数,得比例优势模型(POM):

,(4-14)

模型(4-14)包括个方程,每个方程的截距项不同(注意POM的

截距项与潜在分割点的符号相反),但所有方程中的回归系数是相同

的,这就是比例优势模型的重要假定(TheProportionalOdds

Assumption):对于任意一个等级,高于该等级与低于该等级的机会

比对数(log-odds)受变动的影响是相同的,即不论我们选择哪个等

级,变动一个单位,机会比对数(log-odds)都变动个单位。根据(4-

14),可得等价模型

(4-15)

容易看出,若为正,意味着的提高总是有助于等级的提高,并且,相

同的表示對任何,的形态是相同的,图4-2表现了比例优势模型

(POM)中和的这种关系。

图4-2比例优势模型(POM)图示()

根据(4-12)式可计算的各个等级出现的概率:

令代表个体各个等级出现的概率,则相应的对数似然函数(其中,,

如果个体出现等级;反之,),

模型的参数(包括和)估计量可通过最大化对数似然函数求得。

值得强调的一点,比例优势模型(4-14)中的每一个方程都可以看

作是一个二元Logit模型,此时,对每一个,令时用1表示,时用0表

示。

三、Logit模型参数的估计方法

1、数据是分组观测资料

对自变量的某组观测值,因变量的个观测值中有个观测值取值为

1,其余为0,则等于1出现的概率的估计值,

有,

若满足经典假定,则可对上式用OLS法进行估计,否则再对模型进

行修正。

则等于1出现的概率

2、数据是未分组资料

用极大似然估计法。

四、Logit模型参数的解释

建模的目的都是为了了解自变量对因变量的影响效应,在一般线

性回归模型中,影响效应可以通过回归系数得到直接的解释,但对于

非线性Logit模型而言,对回归系数的解释就复杂得多,自变量的影响

效应也较难计算,因为自变量对因变量的影响是通过对因变量各可能

结果(outcome/category)出现概率的影响来表现的,而Logit模型都

是定义因变量各可能结果的机会比对数(log-odds)为自变量的线性函

数,因此模型系数直观的解释是自变量每变动一个单位,在保持其它

自变量不变的情况下,因变量各可能结果的机会比对数(log-odds)变

动的数值。显然,Logit模型回归系数本身无法直接解释自变量对因变

量的非线性影响(见(4-15)式和图4-2),正是这种复杂的内在联系

使得Logit模型中很难对回归系数做出直接的易于理解的解释,而通常

是通过适当的变换用机会比变动的比率(OddsRatio)来解释模型。

OddsRatio的含义是自变量增加一个单位,在其它自变量保持不

变的情况下,因变量出现不同结果类别的机会比(odds)变动的比

率。显然,OddsRatio比起回归系数而言,更进一步解释了自变量对

因变量的影响效应,并且OddsRatio与回归系数联系紧密,它等于对

相应自变量的回归系数按取幂,即等于,因此常被用来替代回归系数

对模型进行解释。若回归系数>0,相应的OddsRatio>1,说明自变量

增加一个单位导致机会比(odds)数值增大,由于机会比(odds)是

因变量两类可能结果的概率之比,odds数值增大,说明作为机会比分

子的类别出现的可能性增大;若回归系数<0,相应的有0

Ratio<1,则说明作为机会比分子的类别出现的可能性减小。

以二元Logit为例,

机会比Odds=

OddsRatio==

=()

不妨设,则,说明的数值增加1,某事件发生与不发生的机会比

(odds)为原来的1.65倍,增加了65%,说明事件发生的概率增大(但

并不意味着发生的概率增大为原来的1.65倍,因为OddsRatio是机会比

的比率,而不是概率的比率)。

描述

[←1]

可以把二元Logit模型看作是POM的特例,对于两个级别0和1,存在分割点,使得:

,;,,与(4-1)式的随机效用模型推导的结论相同。

本文发布于:2023-01-04 04:14:41,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/88552.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:锆石怎么读
下一篇:never think
标签:adjacent
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图