DOI: 10.13546/jki.tjyjc.2020.22.003
〔理论探互1
Logistic回归模型参数的贝叶斯估计及应用
王纯杰\戚顺欣\张洪阳2
(1.长春工业大学数学与统计学院,长春130012:2.南宁师范大学数学与系统科学学院,南宁530001)
摘要:文章采用独立样本M-H算法、逐分量M-H算法和切片Gibbs算法,计算Logistic因归模型的后验分 布:在蒙特卡洛模拟中,采用每隔15步抽样一次的方法来降低自相关性。通过绘制直方图、路径图、自相关图 等来比较三种算法,分析每种算法的优缺点。结果表明:在先验分布都选取正态分布的前提下,三种算法均具 有可行性。随着样本量增大,切片Gibbs算法和独立样本M-H算法估计效果相对较差,逐分量M-H估计效果较 好,并且采用Lasso算法进行变量选择可以提高抽样效率。
关键词:M-H算法;切片Gibbs算法;Logistic回归模型;Lasso;R软件
中图分类号:〇2丨2 文献标识码:A文章编号:1002-6487(2020)22-0014-05
〇引言
作为广义线性模型的一种,在处理自变M与分类型因 变量的关系时,经典的Logistic回旳模型因系数易于解释 而被广泛应用。目前,Logistic回归模型研究已经非常成熟,但在估计精度上还有改进的空间。本文尝试引人先验 分布与Logistic回归模型的似然函数联合形成后验分布,通过贝叶斯估计对后验分布作出客观评价,以使模型参数 估计结果更精准。
需要指出的是,贝叶斯推断需要计算后验分布的积分,而后验分布函数一般是复杂的、高维的、形式非标准 的,其计算往往十分困难、通常采用M C M C(M arkov Chain Monte Carlo严法,尤以M-H算法和Gibbs算法为多。其中 M-H算法(Mplropolis-Hastings)l;M几乎可从任一•目标分布(比如后验分布)中抽样,但在实践中,找到一个合适的建 议分布非常困难;Gihhs抽样是在1984年由G w n a n等^提 出的,其在高维时起到降维的作用,但是,Gihhs抽样要求 参数的条件分布是熟悉的分布,对于条件后验未知或者是 不常见分布时,无法使用普通Gihte抽样。因此本文采用 特殊的 M C M C算法:切片 Gibbs算法(The Slice Gibhs Sampler)、独立样本M-H算法 (The Independence Sampler)和逐 分量 M-H算法(Single-component Metropolis Hastings Algorithms)来进行贝叶斯估计。
本文用到的切片法的基本思想是在后验分布中添加一个辅助函数使其成为一个联合分布,然后通过截 断的区间定义上下界进而估计参数。M-H算法中的独立 样本算法的待选产生密度独立于之前的样本,根据接受概 率判断分析。逐分量M_H算法是在独立样本算法的基础 匕从提议分布中产生两个候选点分别计算接受概率。本
基金项目:国家自然科学基金资助项目(11671054; 11571051)
作者简介:王纯杰(1978—),女,辽宁灯塔人,教授,博士生导师,研究方向:生物统计、贝叶斯推断。
成顺欣(1996—),女,辽宁沈阳人,硕士研究生,研究方向:生物统计。
(通讯作者)张洪阳(1975—),男,辽宁沈阳人,博士,讲师,研究方向:应用统计学。
K-class SVM Classification A lgorithm Bad on G R C—MCC
Tan Xin", Deng Guangming" h军事理论课心得体会
(a. College of Science, b. Institute of Applied Statistics, Guilin University of Technology, Guilin Guangxi 541006, China)
A bstract:Addressing a ries of problems caud by the k-class Support Vector Machine (SVM) algorithm in classifying data into multiple categories, such as information overlapping between feature variables, high model complexity and low classification accuracy, this paper propos the method of employing Grey Correlation Clustering (GRC) to classify feature variables, using Multiple
Conelation Coefficient method (MCC) to empower feature variables in the same category, and adopting the obtained comprehensive variables to establish the k-rlass SVM model. The paper also prentvS an improved k-class SVM multi-classification algorithm. The empirical analysis shows that the classification effect of the propod algorithm is better than that of the traditional algorithm.
Key w o rd s:k-class support vector machine algorithm; grey relation clustering; multiple correlation coefficient method; multi-classification
14 统汁与决策2020年第22期•总第562期
文利用三种算法计算参数的均值、标准差、偏差、均方误 差、2.5%和97.5%分位点、中位数,给出模拟过程中的直方 图、自相关图、路径图、等高线图、遍历均值图,通过对比找 出最为可行的、稳定的、精度高的模型,并应用于麻醉医学 中进行实践验证。
1Logistic回归模型的Bayes估计
Logistic回归模型141是一种广义的线性回归预测模型,通常用于数据挖掘、相关性分析、经济预测等方面。Log i s t i c回归模型通常基于二项分布y~5(l,p,.),0<p,.<1,通 过Logistic函数建立响应变量与协变量之间的联系,二项 分布的概率函数为:
户(y=乃| p,)=P,v,.(i -p,.)1'少;=〇,1,= 1,…,”
将二项分布化简成指数分布族形式,并得到Logistic 回归的线性化方程。最后反解得到p,表达式:
exp(^0+^x.)
Pi~l+expC^+^j c,)
将P,.代入二项分布中得到样本x5的概率函数并求出似然函数:
則凡,久)乾〇v"•,九>=n z d-a广,
林清玄桃花心木/=1
= f r f exp(^…+^jc,.) Y f1V"V,
11 + exp〇eo J ^ 1 + exp(^0 +^,.x i)J
=Q\p{nyP0 + - logo + ^)},f = 1,…,/?
i = l
经典的Logistic回归模型一般采用高斯-牛顿法进行迭代计算,利用R软件可直接获得参数;c9的极大似然估 计。虽然经典的L o g i s t i c•回归模型已经非常成熟,但是估 计精确度还有待改进。因此,引人先验分布与Logistic回归模型的似然函数联合形成后验分布,采用贝叶斯方法对 后验分布作出客观评价。
都是因为你贝叶斯公式最早由Bayes151提出。贝叶斯统计有三种 信息:总体信息、样本信息、先验信息,通过贝叶斯公式得到后验分布公式:
(f f,h(x,6)^ L{x\e)n{6)
71X w(x) J eL(x|6»)7t(6')d6'
其中,0是其参数空间,m(x)= _f0Z<;c|0)7:(6i)d(9是;c的边际密度函数且与0无关,因此只有后验分布能对0做出 判断。后验分布正比于先验分布7t(0)与似然函数 L〇c|0)的联合分布A(x,0),用公式表示为:
n{0\x)x j t(0) •L{x\ff)
2三种Bayes抽样算法
2.1独立样本M-H算法
M C M C抽样中一般最常用的就是M-H算法,其中的 一种特殊形式是独立样本M-H算法,其提议分布不依赖于前一状态值,当提议分布与目标分布接近时效果很好,优点在于简单、容易实施。将该方法用于Logistic回归中,首先令模型的似然函数中/=0,丨,得到:
^(y\/5〇, ^,) =L(yv ■ ••. y…) = exp n yp0 + P^j x iy i
V V, 1
-lo g(l+e)
考虑凡、A的先验分布为蚵A),A)的独立正态分布:
=0,1
其中,当& =0,<;很大时,可以表示接近无信息先验 分布,得到的后验分布为:
兀(凡,式丨少)《 L(>i A,A W A i,A)沈
exp{^[(^〇+Pvxi)y,-1〇g〇+e°'')]—(' ’,Ai)-’ }提议分布选择,〜? = #(/?,diag{4。,^,}),其中/(奶=/(久,•••,凡)为目标分布,则对后验分布的算法步骤 如下:
步骤1:令々=(凡 1.…,。
步骤2:从提议分布7V(A,diag{4。,4,!)中产生候选点众。
步骤3:计算接受概率
,〇〇\ ■ …/CvlAo^i^Ao-A)
a(p yp)= m\n{\,---:--------------}〇
步骤4:以概率《〇5,a)接受a,并令a(° =众;否则广=々。
2.2逐分量M-H算法
逐分量M-H算法是当状态空间为多维时,不整体更新久,而是对其分量逐个更新,这种方法比独立样本M-H 算法更有效率。第f步链的状态及第Z步除了 i个分量外其他分量的状态如下:
A=(A,i,…,U,=(A,I,…,A.f+i,…U
资源优势
/(灼=/(A,...,凡)为目标分布,/(A|A_,)=
7~~泄—表示式对其他分布的条件密度。
J/(#,,…,规
而逐分量M-H算法更新仏,由(步构成:令久表示在第/次迭代后久第/个分量的状态,则在第i'+ 1步迭代 的第/步中,使用M-H算法更新久,。做法如下:对i_= 1,…人从提议分布中产生y,,这里C A+I,,,…,A+,,m,九,.+1,…,U。然后以概率«(々.K)= min{l,
/(♦:>,(I K)
m^[)q,(y\P,rP:)
}作为评判
准则。若y,被接受,则令A+1,/=y,;否则,令
2.3切片Gibbs算法
先验分布选择正态分布,引人新的辅助函数得到后验分布,并使用切片Gibbs算法。
统计与决策2020年第22期•总第5W期 15
[m
^m
n \
h
j
i f i '- h )2
1+^
)exp (-2a :
2%
令f = 1,•••,《,从如下分布中产生w ,.、凡、鬲。上述 条件后验分布为截断的正态分布,截断的区间定义为
n
J 〇y, +fi^yi
也可以表示为:
,=i
1 +e
P^i +^y , u
F o r
~j ^=>f i 0+^x ^\〇S Y -^\+e ui
For =〇=>«, ^----\-^^>Pa +P ,Xi >\og —^-\+e
i
因此可以得到:
max(l 〇g y ^-) ^P 0 +P ^ < m in (lo g -^)最终可以得到关于凡、y S ,的不等式:
k
“
。=
—A ')h = ™a ^^'[1〇g T Z ^: ^ «i = ^o ^'t 'o g ^ -^J )
其中,所有的x ,.>0 ,参数凡、/?,分别服从
iV 〇^。,<^。)/(/。,M 。)和 7V 〇^,<,)/(/,,《,)分布。
3
数值模拟与比较
下面通过数值模拟过程来评价三种模型性能,其模拟 步骤如下:
步骤丨:三种算法均采用正态分布 7=0.1作为先验分布71(々。,/3,)。
步骤2:通过先验分布 <;凡,久)与Logistic 回归似然函 数i 〇^。,久),化简出适合各算法的后验分布;c d A ,b )。
步骤3:设定参数真值凡=0.5,/5, = 0.5。
步骤4:设定马尔科夫链长度55000,退火(h u m -in )卜 30000〇
步骤5:设置算法迭代循环次数分别为100次、200次、 300 次、500 次。
男生网名大全步骤6:估计出参数凡、式的均值、标准差、偏差、均
方误差、2.5%和97.5%分位点、中位数。
步骤7:両出直方图、自相关图、路径图、等高线图、遍 历均值图。
步骤8:比较分析估计参数结果,得出结论。模拟结果见表1至表3。
表1至表3的结果表明了三种算法的有效性。随着样 本量增加,独立样本M -H 算法和切片GiW «算法模拟的参 数估计值A 。、久较真值偏差较大,而逐分量M -H 算法估 计参数的偏差和均方误差都有较好的估计结果,标准差会 随着样本量的增加而减小,样本均值随着迭代次数的增加 而逐渐接近真值,中位数与均值处于2.5%分位数和97.5% 分位数之间,从结果上看比较稳定。可见用逐分量M -H 算法进行后验估计的效果是最好的.因此,使用此方法进
表1
独立样本M -H 算法模拟结果
样本量真值均值标准差偏差均方误差
2.5%分位点中位数
97.5%分位点
n =100凡= 0.50.4480.039-0.052
0.008-0.4460.445 1.282A 丨=〇.50.5630.0300.063
0.0130.2250.540 1.185n =200凡= 0.5 ^ = 0.50.5990.5080.056
0.0300.099
0.0080.0140.009-1.4200.6120.5780.4970.4081.745n =300凡= 0.50.4930.052-0.007
0.007-0.5910.446 1.509A = 〇-50.5520.0370.052
0.0080.3680.545 1.6%n =500
凡= 0.50.5260.053
0.0260.007-0.2840.542
1.561々丨=0.50.5440.037
0.044
0.008
-0.037
0.511
0.857
表2
逐分置M -H 算法模拟结果
样本量
真值
均值标准差偏差均方误差
2.5%分位点中位数
97.5%分位点
n =100凡=0.5 犀=0.50.5120.5210.0460.0410.0120.0210.0010.002-0.254-0.1090.5190.512 1.6180.779n =200凡= 0.5 夂=0.50.5430.5220.5810.035
0.0440.022
0.0090.008-0.114-0.4070.4900.498 1.7760.902n =300
凡= 0.5 ^=0.50.4930.5570.0450.039-0.007
0.057
0.0090.006-0.612
0.3180.4700.529 1.2731.425n =500
^〇 = 〇-5 々丨=0.50.4720.5600.0470.033
-0.028
0.060
0.0010.010
-0.2280.142
0.4650.551
1.6791.442
表3 切片Gibbs 算法模拟结果
样本量
真值
均值标准差偏差均方误差 2.5%分位点中位数97.5%分位点
n =100^〇=〇.5 久=0.50.4460.5560.0540.030-0.0540.056
0.0080.012-0.6720.0760.3450.0300.9590.989n =200
0.4420.057-0.058
0.006-0.5470.401 1.530晃=0.50.5800.033
0.080
0.0100.0160.5690.974n =300^〇 = 〇-50.5830.0580.0830.0130.2340.575 2.621犀=0.50.5240.0400.0240.011-0.2770.0400.884n =500
凡= 0.50.5350.052
0.035
度日如年什么意思
0.009-0.3360.517 1.543A =〇.50.5340.0360.034
0.009
-0.050
0.512
0.863
行参数估计并应用于本文的实例中。
图1至图15展示了迭代循环200次时分别根据三种 算法作出的直方图、路径图、自相关图(A C F )、遍历均值图、 等高线图,其中A C F 自相关图采用等间距每隔15步抽样 一次的方法来降低自相关性。将三种方法进行比较。
H isto g ra m o f b eta _p {,2】
H isto g ra m o f betaj )j ,2】
H isto g ra m o f b eta _p (,2]岳麓书院学规
图1独立样本M -H 直方图图2逐分置M -H 直方图
图3切片Gibbs 直方图
2.0 厂―丨.1— 一 —7.......: ......|. .; 2.0
图4独立样本M -H 路径图 图5逐分量M -H 路径图 图6切片Gibbs 路径图
S eries betaj >(,2] S eries b e la _p [,2】 S eries b e ta _p (,2】
图7独立样本M -H 自相关图图8逐分置M -H 自相关图图9切片Gibbs 自相关图
16
统计与决策2020年第22期•总第562期
01000020000300004000050000 01000020000300004000050000 01000020000300004000050000图10独立样本M-H遍历均值图图11逐分置M-H遍历均值图图12切片G ib b s遍历均值图
-
1.5 -1.0 -0.5 0.0 0.5 0.0 -2.0 -1.5-1.0-0.5 0.00.5 1.0 -1.5-1.0-0.5 0.00.5 1.0 1.5图13独立样本M-H等离线图图14逐分置M-H等高线图图15切片G ib b s等高线图从图1至图15可以看出,三种算法的估计参数均可行,对比观察直方图、路径图、自相关图、遍历均值图和等 高线图,三种算法所展现的效果均较好,其中,拟合效果最 好的是逐分量M-H算法。在未间隔取样之前,三种算法 的自相关图都很高,说明自变量间的自相关性很高,这种 现象也会出现在实例应用中,因此,本文先采用等间距每 隔15步抽样一次的方法降低了自变量间的自相关性,再 在实例中对自变量进行变量选择.
4实例
本文选取的是2018年沈阳市某市级医院麻醉科临床 数据|61,该数据是由麻醉师在临床开腹手术中收集的,数据 来源于40位食道癌患者。其中,响应变量F为术后是否 会使病人产生恶心呕吐症状(P O N V)(有/没有),在选取的 11个可能会干扰响应变量的自变量中,将性别、麻醉后监 视治疗补救镇痛(pacU)、24h后补救镇痛、经皮穴位电刺激 (T E A S)、手术前风险评估(A S A)五个定性变量赋值0和1, 转换成数值型变量以进行自变量分析,如表4所示。
表4 影响术后恶心呕吐症状的自变量
变量名变量名称陚值
性别卜男,〇-女^2年龄/岁
38-60太3身高
/m 1.53-1.80文4体重
/kg59-85文5麻醉时长/m in
156-291 X6麻醉后监视治疗补救镇痛(pacu)1-需要,0-不需要
X724h后补救镇痛 1 -需要,0-不需要
Xi丙泊酌麻药用量(Prop)/ml112.1-296
X9舒芬太尼麻药用量(Sd)/mg27.2-66.4
X10经皮穴位电刺激(TEAS)1-用,〇-不用
x u手术前风险评估(ASA)1-有风险,〇-无风险
接下来采用Lasso算法来选择影响手术后病人恶心呕吐的主要因素。
4.1Lasso算法
Lasso^(Least Absolute Shrinkage and Selection Op-erator,简称 Lasso)由Tibshirani(1997)m提出,采用具有连续性约束的二次规划来进行求解,但是计算量和耗时过于 庞大。直到Efron等(2004)181针对Lasso算法整个正则化路径开发了一个有效算法—最小角回归(Least Angle Regression,L A R S), 综合了经典的逐步回归法的优点,快速 有效地解决了 LaSS〇算法的计算问题,并广泛使用于各个 模型中,以解决变量选择的问题。随后,Friedman等 (2010F1提出了适用于广义线性模型的算法,并开发了 R 中专门的glmnet包,适用于线性回归、Logistic回归、C0X 回归模型等。之后Lasso算法还被应用于图模型、半参数 模型等模型中。本文将Lasso算法应用于贝叶斯Logistic 回归模型的估计中,从而更精准地估计出影响开腹手术后 患者恶心呕吐症状的自变量,为医学提供参考。
Logistic对数似然函数为:
n
A〇./?,) = ex p^^A o+^x tyi - log(l + e ")},
i= 1
i=U",p
加入惩罚项后,Lasso-logistic回归模型中系
7=1
数估计值#可以写成:
3 = arg min吃[-W々,.’) + log(l + expo?。+/?,.'.’))]
/=1
+攻|劝
y=i
Lasso-Logistic回归模型的实现步骤如下:
步骤1:采用交叉验证法选择最优的调整参数又。
步骤2:定义L o g i s t i c■回归似然函数,采用最小二乘线 性Logistic回归拟合。
步骤3:采用坐标下降法求取Lasso算法的解,即对每 一个参数在保持其他参数固定的情况下进行优化、循环,直到系数稳定。
4.2变量选择结果
本文首先采用R软件中的glmnet程序包将Lasso算法 应用于Logistic回归,采用交叉验证法得到参数A ,图16是 。^。算法决定最优调整参数/I的过程,观察随着调整参数义的变化模型误差的变化情况,横坐标为调整参数乂的 对数,纵坐标为模型误差。图17是利用lasso算法得出的 系疏解路径图。图中,每一条线代表了一个变量,纵轴为 参数的系数,横坐标为调整参数A的对数。通过查看各变 量相关系数,系数不为〇的变量即为筛选结果。
模型选出的变量个数随着i的估计值大小的变化而 变化,结果显示,A= 0.0001193时,模型误差最小,此时选 择出6个变量如下页表5所示。
统计与决策2020年第22期•总第562期
17
表5lasso变置选择后的自变置5结论Intercept A x2文3X6•r9又10
相关系数-1.039-0.5110.060-0.118-0.1450.372-0.008这6个自变量分别是x,性别、;c2年龄、x3身高、麻 醉后监视治疗补救镇痛(pacu)、j c9舒芬太尼麻药用量(Sul)、经皮穴位电刺激(TEAS)。运用逐分量M-H算法对带有 这6个自变量的回归模型进行分析,从表5中可以看出,病 人术后症状与性别、身高、麻醉后监视治疗补救镇痛(pacu) 以及经皮穴位电刺激(TEAS)呈负相关,与年龄和舒芬太尼 麻药用量(Suf)呈正相关。因此可以得出,女性在开腹手术 后恶心呕吐症状会更显著;身高越高的患者在开腹手术后 恶心呕吐症状会越明显;麻药舒芬太尼在麻醉过程中除了 缓解疼痛以外,还起到抑制患者恶心呕吐的作用。
4.3实例分析
本文选用效果最好的逐分量M-H算法,对自变量进 行分析,结果如表6所示。
表6 逐分置M-H算法分析自变量结果
自变量均值方差P-value置信下界中位数置信上界-3.024 1.2210.013-5.417-2.920-0.632
0.1490.0930.107-0.0320.1480.331
尤3-9.547 2.9430.001-15.32-9.126-3.778
卧底归来林莺X6-1.5200.9140.097-3.312-1.5470.273
X90.1730.0670.0090.0430.1700.304
X\00.4350.8590.613-1.2490.455 2.119
由表6可以看出,变量A:,性别、&身高和;《:9舒芬太尼 麻药用量(Suf)对术后恶心呕吐症状的显著性最强,P值小 于0.05,显著相关,方差也相对较小,因此可以得出结论:在临床开腹手术中,食道癌患者术后是否会产生恶心呕吐 的症状与患者的性别、身高和麻醉药舒芬太尼的用量显著 相关。这个结论相比于经典统计学派的分析结果更准确,同时,采用La S S〇算法提前消除相关性过高的自变量对于最终的结果也起到了重要作用。
本文将独立样本M-H算法、逐分量M-H算法和切片 Gibbs算法进行模拟对比分析,三种算法中稳定性最强、精 确度最高的是逐分量M-H算法。并将Lasso算法应用到Logistic回归模型中进行参数估计和变量选择,使得结果更精确。
实例结果表明:在开腹手术中患者的性别会影响术后 的恶心呕吐症状,女性在开腹手术后恶心呕吐症状会更显 著;身高越高的患者在开腹手术后恶心呕吐症状越明显;麻药舒芬太尼在麻醉过程中除了缓
解疼痛以外,还起到抑 制患者恶心呕吐的作用。对比经典频率学派Logistic回归 参数估计,贝叶斯估计更加准确,更具有医学应用价值。
参考文献:
[ljBesag J.Markov Chain Monte Carlo Methods for Statistical Inference [R].University of Washington, 2004.
[2] Aminger G.A Bayesian Approach to Nonlinear Latent Variable Mod
els Using the Gibbs Sampler and the Metropolis-Hastings Algorithm [JJ.Psychometrika, 1998,(63).
[3] Geman S,Geman D.Stochastic Relaxtion,Gibbs Distributions and the
Bayesian Kestoration of Images (JJ.Transactions on Pattern Analysis and Machine Intelligance, 1984,(6).
[4] 王丙参,魏艳华.利用M-H算法求解Legistic回归模型参数的贝叶
斯估计[J】.统计与决策,2017,(18).
丨5]韦来生•贝叶斯统计[M】•北京:高等教育出版社,2016.
[6] 王纯杰,成顺欣,罗琳琳,等.临床开腹手术中基于Logistic回归模型
对麻醉用法的分析[J】.吉林师范大学学报(自然科学版),2019,40(2). [7] Tibishirani R.The Lasso Method for Variable Selection in the Cox
Model (J].Statistics in Medicine, 1997,16(4).
[8] Efron B,Hastie TJohnstone I.L^ast Angle Regression [J].The Annals
of Statistics,2004, 32(2).
[9] Friedman J,Hastie T,Tibshirani R.Regularization Paths for General
ized Linear Model via Coordinate Descent [J].Journal of Statistical Software,2010,33(1).
(责任编辑/刘柳青)
Bayesian Estim ation and A pplication for Parameters in Logistic R egression M odel
Wang Chunjie1 ,Qi Shunxin1, Zhang Hongyang2
(1.School of Mathematics and Statistics, Changchun University of Technology, Changchun 130012, China ;2.Sohool of Mathematics
and Systems Sciences, Nanning Normal University, Nanning 530001, China)
A b stract:This paper us independent sample M-H algorithm, M-H algorithm of single-component and slicing Gibbs algorithm to calculate the posterior distribution of L/)gistic regression model, and then employs the methods of sampling every 15 steps to reduce the autocorrelation in Monte Carlo simulation. Finally, the paper compares the three algorithms by drawing histogram, path diagram and autocorrelogram, etc, and analyzes the advantages and disadvantages of each sampling method. The results show that the three algorithms are feasible under the premi that the prior distributions all lect normal distributions, that with the increa of sample size, the estimation effect of slicing Gibbs algorithm and independent sample M-H algorithm is relatively poorer, while the effect of M-H algorithm of single-component is relatively better, and that the sampling efficiency can be improved hy u s- ing Lasso algorithm for variable lection.
Key w o rd s:M-H algorithm; slicing Gibbs algorithm; Logistic regression model; Lasso; H software
18 统计与决策2020年第22期•总第562期