第八章离散因变量模型
离散(分类)因变量模型(ModelswithDiscrete/Categorical
DependentVariables)分为二元选择模型(BinaryChoiceModels)和
多类别选择(反应)模型(MulticategoryChoice/Polytomous
ResponModels)。在多类别选择模型中,根据因变量的反应类别
(responcategory)是否排序,又分为无序选择模型(Multinominal
ChoiceModels)和有序选择模型(OrderedChoiceModels)(也称有
序因变量模型OrderedDependentVariableModels、有序类别模型
OrderedCategoryModels等)
一、二元选择模型
设因变量
1、线性概率模型(LPM模型)
如果采用线性模型,
给定,设某事件发生的概率为P
i
,则有
所以
称之为线性概率模型。
不足之处:
1、不能满足对自变量的任意取值都有。
2、
3、
所以线性概率模型不是标准线性模型。
给定,为使,
可对建立某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/BinaryLogitModel)
Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻
辑概率分布函数(CumulativeLogisticProbabilityFunction)(e为自
然对数的底),逻辑曲线如图4-1所示。其中,二元Logit模型是掌握多
类别Logit模型的基础。
图4-1逻辑曲线(LogitCurve)
以二元选择问题为例,设因变量有0和1两个选择,由自变量来决
定选择的结果。为了使二元选择问题的研究成为可能,首先建立随机
效用模型:
令表示个体i选择=1的效用,
表示个体i选择=0的效用,
显然当时,选择结果为1,反之为0。将两个效用相减,即得随机效用
模型:
,
记为(4-1)
当时,,则个体i选择=1的概率为:
若的概率分布为Logistic分布,则有
即(4-2)
式(4-2)即为最常用的二元选择模型——Logit模型。
二元Logit选择模型的参数估计通常使用最大似然估计法,令似然
函数,再求似然函数L的对数值最大时的参数估计量。
对(4-2)式进行适当的变换,得
即(4-3)
式(4-3)与式(4-2)是等价的,而且更易于解释,式中为个体i做
出选择1的机会比(odds),式中的因变量是机会比(odds)的自然对
数,参数的含义为自变量每增加一个单位机会比(odds)的自然对数
增加的数值。在多类别选择模型中,通常也是以机会比的自然对数
(log-odds)作为因变量建立关于自变量X的线性模型,统称为Logistic回
归。
3、Probit模型
同Logit模型的推导,不同在于取分布函数的形式为标准正态的分
布函数,则有。
二、多类别Logit模型(PolytomousLogitModel)
对于多类别选择问题,即离散因变量有两个以上的选择类别,可建
立多类别Logit模型来研究。根据因变量可供选择的结果类别是否排
序,有几种不同类型的Logistic回归,有的只适用于排序选择模型(如
Cumulativelogitmodels,AdjacentCategoriesModels等),有的对于
非排序选择模型也适用(如BalineLogitModels,ConditionalLogit
Models等)。
1.基准类别Logit模型(Baline-CategoryLogitModel)
对于非排序选择问题,通常用基准类别Logit模型来研究。
设离散因变量有类可能结果,令代表个不同的结果类别,各类结
果之间相互独立,不存在等级排序关系,定义代表个体选择结果,则
个体的可能选择;为个影响因变量选择结果的自变量;定义为个体选
择结果的概率,即,则个体做出各类选择的概率,。以作为基准类
别,可定义个机会比的自然对数(log-odds),引入自变量,则可得基
准类别Logit模型(Baline-CategoryLogitModel)如下:
(4-4)
式中,,,为样本容量,为自变量个数;
,,为离散因变量结果分类的个数。
可见,模型(4-4)中包括个方程,有个待估参数。
与模型(4-4)等价的是各类结果出现的概率函数,当为非基准类
别,即时,
(4-5)
当为基准类别,即时,
(4-6)
模型(4-4)—(4-6)是等价的,同样可以用最大似然估计法进行参数
估计,通过的联合概率函数导出似然函数:
(4-7)
其中,,如果个体选择结果;反之,。把(4-5)式和(4-6)式代入
(4-7)式并取对数得对数似然函数,再通过对数似然函数最大化的一
阶条件求解模型参数。
模型(4-4)的参数表示当其它自变量保持不变时,自变量每变化
一个单位,个体的选择落入第类的概率对比落入第类的概率得到的机
会比对数(log-odds)变化个单位。
对于基准类别(Baline-Category)Logit模型而言,任可一个类
别都可被选作基准类别,不会影响模型的拟合,只是式(4-4)的参数
估计值及其解释发生变化,模型的对数似然函数值和因变量各个类别
的概率预测值都不会改变。
基准类别(Baline-Category)Logit模型非常灵活,通过式(4-
4)可以求个体的选择落入任意两个类别的机会比对数(log-odds),
如要求结果对比结果的机会比对数,有
(4-8)
2.相邻级别Logit模型(Adjacent-CategoryLogitModel)
若因变量各选择类别之间存在排序等级关系,如研究个体对某一
产品的偏好程度,用1,2,3分别代表厌恶、一般、喜欢,则因变量
Y=(1,2,3)为排序因变量(OrderedDependentVariable),对应
的排序选择问题可以用相邻级别(Adjacent-Category)Logit模型来研
究。
设排序因变量有个选择类别,,代表第个选择;代表各个选择出
现的概率(为简便起见,省略表示个体的下标,下同);代表个影响
个体选择的自变量。定义个体的选择落入相邻两个级别的机会比对数
(log-odds)为,引入自变量,可得相邻级别(Adjacent-Category
)Logit模型如下:
()(4-9)
或()
模型(4-9)包括个回归方程和个待估参数。
相邻级别(Adjacent-Category)Logit模型与基准类别(Baline-
Category)Logit模型(4-4)最大的区别在于它考虑了因变量的各选择
类别之间的等级排序关系,并假设自变量对任意两个相邻级别的机会
比对数的影响系数是相同的,因此模型(4-9)中回归系数在所有相邻
级别的回归方程中数值是一样的。事实上,若在基准类别(Baline-
Category)Logit模型(4-4)中加入因变量各类别内在等级排序的约束
条件,可以得到与(4-9)式等价的相邻级别(Adjacent-Category)Logit
模型。
假设对排序因变量,选择基准类别,根据式(4-4)建立Baline-
CategoryLogit模型:
(4-10)
由于因变量的取值是排序的,因此如果自变量有助于提高的等级(设
的等级高于),则增加一个单位,取值为的可能性大于取值为的可能
性,这意味着。不失一般性,假设对于任意均有,,并假设随着等级
的提高而成比例增加,不妨设,,将约束条件代入(4-10)式,则可
求得(4-9)式的相邻级别(Adjacent-Category)Logit模型:
同理,可求得相邻个等级的任意两个类别的机会比对数为:
(4-11)
模型(4-9)同样可以用极大似然估计法估计,利用计量软件包可
以方便地求得因变量的取值落入各个等级的概率,模型参数表示当其
它自变量保持不变时,自变量每变化一个单位,因变量的取值落入任
意两个相邻等级和的机会比对数(log-odds)都变化个单位。
3.比例优势累积Logit模型(Proportional-OddsCumulativeLogit
Model)
比例优势模型(ProportionalOddsModel,简称POM)也称累积
Logit模型(cumulativelogitmodel),最早由McCullagh(1980)提出,
是排序Logistic回归中最常用的模型。目前,POM广泛应用在社会经
济统计学和生物医学统计领域。与相邻级别(Adjacent-Category)Logit
模型相比,POM更适合研究自变量的变化对因变量等级变化的影响效
应,即自变量数值的增加或减小是否有助于因变量级别的提高或降
低。
POM假设排序因变量的类别等级受不可观测的潜变量的影响,并
且存在个未知的潜在分割点(cutpoint或threshold),将分为个等级
1,
即:
若是自变量的线性函数,则,代表个自变量,,设服从Logistic分布,
则可得的累积概率函数:
(4-12)
比例优势模型(POM)就是使用累积概率来定义机会比(odds):
(4-13)
式(4-13)表示的等级大于与的等级小于或等于的概率比,odds数值
越大,说明的等级大于的可能性越大。相应的机会比对数(log-odds)
为:
将(4-12)式代入机会比对数,得比例优势模型(POM):
,(4-14)
模型(4-14)包括个方程,每个方程的截距项不同(注意POM的
截距项与潜在分割点的符号相反),但所有方程中的回归系数是相同
的,这就是比例优势模型的重要假定(TheProportionalOdds
Assumption):对于任意一个等级,高于该等级与低于该等级的机会
比对数(log-odds)受变动的影响是相同的,即不论我们选择哪个等
级,变动一个单位,机会比对数(log-odds)都变动个单位。根据(4-
14),可得等价模型
(4-15)
容易看出,若为正,意味着的提高总是有助于等级的提高,并且,相
同的表示對任何,的形态是相同的,图4-2表现了比例优势模型
(POM)中和的这种关系。
图4-2比例优势模型(POM)图示()
根据(4-12)式可计算的各个等级出现的概率:
令代表个体各个等级出现的概率,则相应的对数似然函数(其中,,
如果个体出现等级;反之,),
模型的参数(包括和)估计量可通过最大化对数似然函数求得。
值得强调的一点,比例优势模型(4-14)中的每一个方程都可以看
作是一个二元Logit模型,此时,对每一个,令时用1表示,时用0表
示。
三、Logit模型参数的估计方法
1、数据是分组观测资料
对自变量的某组观测值,因变量的个观测值中有个观测值取值为
1,其余为0,则等于1出现的概率的估计值,
有,
若满足经典假定,则可对上式用OLS法进行估计,否则再对模型进
行修正。
则等于1出现的概率
2、数据是未分组资料
用极大似然估计法。
四、Logit模型参数的解释
建模的目的都是为了了解自变量对因变量的影响效应,在一般线
性回归模型中,影响效应可以通过回归系数得到直接的解释,但对于
非线性Logit模型而言,对回归系数的解释就复杂得多,自变量的影响
效应也较难计算,因为自变量对因变量的影响是通过对因变量各可能
结果(outcome/category)出现概率的影响来表现的,而Logit模型都
是定义因变量各可能结果的机会比对数(log-odds)为自变量的线性函
数,因此模型系数直观的解释是自变量每变动一个单位,在保持其它
自变量不变的情况下,因变量各可能结果的机会比对数(log-odds)变
动的数值。显然,Logit模型回归系数本身无法直接解释自变量对因变
量的非线性影响(见(4-15)式和图4-2),正是这种复杂的内在联系
使得Logit模型中很难对回归系数做出直接的易于理解的解释,而通常
是通过适当的变换用机会比变动的比率(OddsRatio)来解释模型。
OddsRatio的含义是自变量增加一个单位,在其它自变量保持不
变的情况下,因变量出现不同结果类别的机会比(odds)变动的比
率。显然,OddsRatio比起回归系数而言,更进一步解释了自变量对
因变量的影响效应,并且OddsRatio与回归系数联系紧密,它等于对
相应自变量的回归系数按取幂,即等于,因此常被用来替代回归系数
对模型进行解释。若回归系数>0,相应的OddsRatio>1,说明自变量
增加一个单位导致机会比(odds)数值增大,由于机会比(odds)是
因变量两类可能结果的概率之比,odds数值增大,说明作为机会比分
子的类别出现的可能性增大;若回归系数<0,相应的有0
Ratio<1,则说明作为机会比分子的类别出现的可能性减小。
以二元Logit为例,
机会比Odds=
OddsRatio==
=()
不妨设,则,说明的数值增加1,某事件发生与不发生的机会比
(odds)为原来的1.65倍,增加了65%,说明事件发生的概率增大(但
并不意味着发生的概率增大为原来的1.65倍,因为OddsRatio是机会比
的比率,而不是概率的比率)。
描述
[←1]
可以把二元Logit模型看作是POM的特例,对于两个级别0和1,存在分割点,使得:
,;,,与(4-1)式的随机效用模型推导的结论相同。
本文发布于:2023-01-04 04:14:41,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/88552.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |