第51卷 第4期 激光与红外Vol.51,No.4 2021年4月 LASER & INFRAREDApril,2021
文章编号:1001 5078(2021)04 0435 06·激光应用技术·一种两阶段变量选择的LIBS定量分析方法
郭宇潇1,2,史晋芳1,2,王慧丽2,邱 荣2,邓承付2
(1 西南科技大学制造科学与工程学院教育部制造过程测试技术重点实验室,四川绵阳621010;
2 西南科技大学极端条件物质特性联合实验室,四川绵阳621010)
摘 要:使用机器学习方法结合激光诱导击穿光谱(LaserInducedBreakdownSpectroscopy,
LIBS)进行定量分析,变量选择的结果直接影响最终的定标模型。现有的变量选择方法多存
在需要先验知识、计算量庞大等问题,因此提出一种两阶段变量选择方法。第一阶段为排序阶
段,以皮尔逊相关系数r为排序准则快速排除与目标元素的浓度无关的变量,保留的变量集合
记为S1。第二阶段为搜索阶段,使用近似马尔科夫毯(ApproximateMarkovBlanket,AMB)排除
S1中的冗余变量,保留的变量集合记为S2。为了测试该方法的有效性,将该方法得到的变量
集合S2,与偏最小二乘法-变量重要性投影(PartialLeastSquares VariableImportanceProjec
tion,PLS VIP)得到的变量集合S3进行比较。S2和S3分别结合3种机器学习方法建立土壤
中锶元素的定量分析模型,结果显示,变量集合S2的3种定标模型决定系数R2均大于0 99,
RE均小于5%,RMSE均小于22ppm,RSD均小于20%,显著优于S3的定标模型。表明这种
两阶段变量选择方法不仅能够高效的进行变量筛选,也在结合不同机器学习算法进行LIBS定
量分析时具有一定普适性。
关键词:激光诱导击穿光谱;变量选择;近似马尔科夫毯;机器学习;定量分析
中图分类号:TN249 文献标识码:A DOI:10.3969/j.issn.1001 5078.2021.04.006
Atwo stagevariableselectionmethodforLIBSquantitativeanalysis
GUOYu xiao1,2,SHIJin fang1,2,WANGHui li1,QIURong2,DENGCheng fu2(1 SchoolofManufacturingScienceandEngineering,KeyLaboratoryofTestingTechnologyforManufacturingProcess,MinistryofEducation,SouthwestUniversityofScienceandTechnology,Mianyang621010,China;2 JointLaboratoryforExtremeConditionsMatterProperties,SouthwestUniversityofScienceandTechnology,Mianyang621010,China)
Abstract:Combininglaserinducedbreakdownspectroscopy(LIBS)withmachinelearningmethodstodoquantitative
analysis,variableselectionisthekey Therearemanyproblemsintheexistingvariableselectionmethods,suchasre
quirementforpriorknowledgeandlargeamountofcomputation,soatwo stagevariableselectionmethodispro
posed Inthefirststage,Pearsoncorrelationcoefficient,asasortcriterion,quicklyexcludesvariablesindependentof
thetargetelementsconcentration,thesetofretainedvariablesisrecordedasS1 Inthesecondstage,theApproximate
MarkovBlanket(AMB)excludesredundantvariablesinS1asasearchcriterion,andthesetofreservedvariablesis
S2 Totesttheeffectivenessofthemethod,thevariablesetS2andvariablesetS3,whichisgotbythePLS VIP,were
usedtoestablishquantitativeanalysismodelsofstrontiuminsoilbycombiningthreetypesofmachinelearningmeth
odsrespectively,andthenthequalityofS2canbetestedbycomparingthepredictionabilityofthetwogroupsofmod 基金项目:国家自然科学基金与中国工程物理学会联合基金项目(No.U1530109);国家自然科学基金项目(No.11972313)资助。
作者简介:郭宇潇(1995-),男,硕士研究生,主要从事基于机器学习的数据处理方法在LIBS检测中的研究。
E mail:yuxiao guo@foxmail.com
收稿日期:2020 07 02;修订日期:2020 08 04
els TheresultshowsthatallthecalibrationmodelsobtainedbyS2withtheR2ofmorethan0 99,REoflowerthan5%,RMSEoflowerthan22ppmandRSDoflowerthan20%,significantlybetterthanthecalibrationmodelsob tainedbyS3 Asaresult,thistwo stagevariableselectionmethodcannotonlyworkeffectively,butalsoownscertainuniversalitywhencombiningwithdifferentmachinelearningmethodstodoabetterLIBSquantitativeanalysis
Keywords:LIBS;variableselection;approximateMarkovblanket;machinelearning;quantitativeanalysis
1 引 言
激光诱导击穿光谱是一种原子发射光谱技术,在分析物质成分方面有很大潜力。LIBS定量分析一直是一个研究难题[1],已有研究表明,机器学习方法能显著提升LIBS定量分析效果,例如支
持向量回归(SupportVectorRegression,SVR)[2-3]、人工神经网络(ArtificialNeuralNetwork,ANN)[4-5]、随机森林(RandomForest,RF)[6-7]、偏最小二乘回归(Par tialLeastSquaresRegression,PLSR)[8-9]、最小绝对收敛选择算子(Latestabsoluteshrinkandselectionoperator,Lasso)[10]等。然而,如何从数以万计的光谱信息中提取有效信息,进行高效的变量选择,是建立高质量定量分析模型的关键[11]。
LIBS定量分析的变量选择方法可以分为两类:(1)基于先验知识的手动变量选择[12];(2)基于机器学习中优化方法的自动变量选择[13]。前者需要一些基体的知识,所选的变量往往包含基体元素的发射线。例如,Sirven[14]在使用LIBS结合ANN分析土壤中Cr的含量时,同时选择了目标元素Cr和基体元素Fe的发射线作为ANN的输入变量。然而,在大部分场景(例如:土壤)先验知识往往难以获得。目前,研究者更致力于探索基于机器学习方法的变量选择。Guezenoc[11]使用LIBS定量分析土壤中的K,采用经典的PLS VIP进行变量选择,最终建立并比较了3种PLS模型,不过,作者在研究中仍然手动排除了H、Ca的发射线和608~1000nm波长范围的变量。除此之外,连续投影算法(SuccessiveProjectionAlgorithm,SPA)[15]、遗传算法(GeneticAlgor
ithm,GA)[16]在LIBS分析中也有应用,但是这些方法的计算量都非常庞大。Duan[15]使用LIBS定量分析土壤中的Cu、Ba、Cr,分别以SPA和GA作为变量选择方法,计算时间分别为7200s和1200s。Yan[17]在使用LIBS定量分析煤炭的热值时,提出一种小波变化(WaveletTransformation,WT)结合平均影响值(MeanInfluenceValue,MIV)的变量选择方法并取得了较好的结果,不过MIV阈值的不当选择可能导致丢失重要信息。
针对LIBS定量分析的变量选择问题,提出一种结合排序和搜索策略的两阶段变量选择方法,该方法无需先验知识,能自动、快速完成变量选择。将之结合不同机器学习方法,提升LIBS定量分析的精密度和准确度。
2 LIBS实验
2 1 样品制备
LIBS实验以标准土壤样品GBW07387(GSS-31)作为分析物。首先,将10份纯净的、不同质量的(C
2
H
3
O
2
)
2
Sr混合PE微粉(HDPE,1810)和标准土壤,在玛瑙研钵中均匀研磨,得到10个Sr浓度在110~850ppm之间的土壤样品。然后,每个样品在20MPa压力下压成薄片( 12mm×2 3mm)。
如表1所示,根据浓度从高到低,将样品标记为C1~C10。C2和C9作为验证集,其他样品作为定标集。
表1 样品分类
Tab.1Sampledivision
No
Calibrationsampleset
concentration/ppm
No
Validationsampleset
concentration/ppm
C1845 55C2721 08
C3596 66C9129 93
C4472 28
C5409 93
C6347 73
C7192 18
C8161 02
C10113 33
2 2 数据采集
LIBS设备如图1所示。光源为两个调QNd
YAG激光器(λ
1
=355nm,λ
2
=1064nm)。激光器1(SpectralPhysics,LAB 190-10)能量为4
5mJ,脉冲持续时间10ns。激光器2(Innolas,Spitlight600)能量45mJ,脉冲持续时间7ns。样品置于X-Y-Z平台(LTB,XYZ Tish)。两道激光光束通过透镜(fo callength=300mm)汇聚于样品表面2mm以下。
6
3
4激光与红外 第51卷
等离子体辐射由透镜(focallength=150mm)聚焦,由光纤采集,用光谱仪(LTB,Aryelle200)进行分析。光谱仪的光谱间隔在193~793nm之间,分辨率为0 02nm。延迟由延迟生成器(DG645,stanford)生成。优化实验参数后,将两个激光器的延迟固定为1μs,将光谱仪采集延迟设定为第二次激光脉冲后3 3μs,ICCD(Andor,i star)积分时间为1s。
在每个样品的表面5×
5矩形方阵上一共采集25幅光谱,除去离群值后,10个样品一共获得220幅光谱。由于每一幅光谱有42870个波长,即42870个强度值,可以得到一个光谱矩阵X[220,42870
]和标签矩阵y[220,1]
。
图1 LIBS原理
Fig 1SchematicdiagramofLIBS
3 变量选择方法
在实际测量的光谱中,由LIBS实验得到的光谱矩阵为X[m,n],待测元素浓度矩阵为y[m,1],其中,
m为光谱数量,n为一幅光谱拥有的强度值数量。一幅LIBS光谱由大量波长对应不同的强度值构成,一幅光谱可以记为[x1,x2,…,xn]。大多数情况下,待测元素原子发射光谱谱线强度值x与待测元素的浓度y符合塞伯-罗马金(Schiebe Lomakin)公式:
x=a·y
b
(1)
式中,a、b在一定条件下为常数,常数b与谱线的自吸收有关,当谱线自吸收可以被忽略时b=1,此时元素的发射线强度x
与该元素的浓度y呈线性关系。3 1 基于皮尔逊相关系数的排序策略
皮尔逊相关系数r是用于计算两个变量之间线性相关性的统计准则,它可以与实验获得的光谱数量m构成统计量F:
r=
cov(x,y)
std(x)·std(y)
F=(m-2)1-r2
r
{
2
(2)
其中,
std( )是标准偏差;cov( )是方差。通过计算待测元素浓度y与光谱中每个强度变量{xi|xi∈[x1,x2,…,xn]}的F,获得集合[F1,F2,…,Fn]。变量xi的得分Fi越高,则xi与待测元素浓度y
之间的线性相关性越强。通过皮尔逊相关系数可以快速得出每个强度变量xi与待测元素浓度y
的相关性,变量的排序策略如图2所示。通过变量评价准则F计算每个变量xi的得分Fi,选择前k个得分最高的变量从而快速排除与待测元素浓度y无关、弱相关的变量,并将保留的变量记为S1,S1=[x1,x2,…,xk
]
。图2 变量排序过程Fig 2Variablesortingprocess
3 2 基于近似马尔科夫毯(AMB)的搜索策略
排序策略并不能消除冗余变量,变量集合S1中的冗余变量会干扰机器学习模型的准确度和精密度,本文中使用近似马尔科夫毯消除S1中的冗余变量。
在变量集合U中,对于变量x∈U,变量集合MB∈U(x MB
),若有:x⊥U-MB-x
|MB(4)
认为当MB存在时,x对问题没有贡献,可以被删除。由于马尔科夫毯的时间复杂度极高,实际中,近似马尔科夫毯常被用于消除冗余变量。下列条件满足时,变量xi是变量xj的A
MB:MIC(xi,y)>MIC(xj
,y)MI
C(xi
,xj
)>MIC(xj
,y{)
(5)
其中,MIC(x,y)表示变量x和变量y的最大信息系数。
变量的搜索策略如图3所示,
搜索集合S1=[x1,x2,…,xk]中所有不存在AMB的变量,将这些变量作为S
2
。图3 变量搜索过程Fig 3Variablesearchingprocess
7
34激光与红外 No.4 2021 郭宇潇等 一种两阶段变量选择的LIBS定量分析方法
3 3 基于两阶段变量选择的LIBS定量分析方法
基于两阶段变量选择的LIBS定量分析流程如图4所示。首先通过离散小波变换(
DiscreteWave letTransform,DWT)对原始LIBS光谱进行降噪和去基线,然后通过排序策略得到变量集合S1,之后通过搜索策略得到变量集合S2,最后将S2作为机器学习方法的输入变量,得到土壤中目标元素Sr的浓
度预测模型。
图4 基于两阶段变量选择的LIBS定量分析流程Fig 4ProcessofLIBSquantitativeanalysisbasedontwo stage
variableselectionmethod
4 数据处理
实验采集的典型LIBS光谱如图5所示,根据NIST数据集,图中标注了SrI460 73nm,小图中的黑线代表原始光谱,红线代表DWT对原始光谱降
噪和去基线的效果。
图5 样品C2的平均光谱Fig 5TheaveragedspectraofsampleC2
4 1 两阶段变量选择
LIBS变量选择由两阶段组成。在第一阶段,通过排序策略从原始光谱X
[220,42870]中保留178个与目标元素Sr浓度相关性最大的变量,保留的变量集合记为S
1,这个阶段保留的变量数目k一般参考定标集中光谱的数量[
18]
。在第二阶段,通过搜索策略从S1筛选出14个没有AMB的变量,保留的变量集合记为S
2。与S1不同的是,第二阶段保留的变量数目是唯一确定的。图6的(a)和(b)分别显示了S
1和S2中的变量。完成变量选择后,光谱矩阵由X[220,42870]变为X[220,14],其中的时间成本为3
75s
。
图6 Wavelengthsstoredbysortingandsearchingstrategy
Fig 6通过排序和搜索策略保留的变量
4 2 LIBS定量分析模型
以变量集合S2结合SVR、ANN和RF,获得的3种定标模型性能如表2的No 1,2,3所示,定标曲线
如图7所示。本文通过绝对系数R2
、均方根误差
RMSE、相对偏差RE、相对标准偏差RSD来全面评价模型的质量。
就准确度而言,三种模型的R2
均高于0 99,
REC(REofCalibrationset)和REP(REofValidation
set)均低于5%,RMSEC和RMSEP均低于22ppm,表明三种模型都有很好的预测能力。就精密度而言,三种模型的RSD均低于20%,说明模型对同一
样品表面不同位置的光谱预测偏差较小。
8
34激光与红外 第51卷
图7 以S2为输入变量建立的3个定标模型
Fig 7CalibrationcurvesofthreemodelsestablishedbyS2 将本文提出的变量选择方法与经典的变量选择方法PLS VIP作比较。在实践中,一般选择VIP值大于1的变量作为机器学习模型的输入变量[11]。通过PLS VIP方法,从X[220,42870]中筛选出9994个VIP值大于1的变量,将此变量集合记为S3。完成变量选择后,光谱矩阵由X[220,42870]变为X[220,9994]。将S3分别作为ANN、SVR和RF的输入变量,得到的定标模型的性能如表2的No 4,5,6所示。
可以发现,无论是准确度还是精密度,以S2为输入的3种定标模型均优于以S3为输入的3种定标模型。
5 结 论
本文针对LIBS定量分析中的变量选择问题,提出一种两阶段的变量选择方法,并将该方法结合机器学习方法用于土壤中Sr的定量分析。将该方法得到的14个变量集合记为S2,将PLS VIP方法得到的9994个变量集合记为S3。通过比较分别由S2和S3生成的ANN、SVR、RF发现:以S2生成的模型,R2大于0 99,RE低于5%,RMSE低于22ppm,RSD低于20%,准确度和精密度均优于以S3生成的模型。研究结果证明了该方法的高效性和普适性,在LIBS定量分析中有着重要作用。
表2 分别以S2、S3为输入的SVR、ANN、RF模型的表现
Tab.2PerformanceofSVR,ANNandRFmodelswithS2,S3asinput
No Models
CalibrationSetValidationSet
R2SlopeRMSEC/ppmREC/%LOD/ppmRMSEP/ppmREP/%RSD/%
1S2-SVR0 99860 97688 781 7117 1821 53 4417 402S2-A
NN0 99790 970210 634 0317 0410 354 9817 453S2-RF0 99450 960417 133 1335 838 363 0912 464S3-SVR0 90300 935515 925 4336 6281 3131 9735 355S3-ANN0 77410 927620 516 7144 182 1111 2339 516S3-RF0 76480 682074 4423 38240 93141 0158 7261 13
参考文献:
[1] HahnDW,OmenettoN.Laser inducedbreakdownspec troscopy(libs),partI:reviewofbasicdiagnosticsand
plasma particleinteractions:stillchallengingissueswithin
theanalyticalplasmacommunity[J].AppliedSpectrosco
py,2010,64(12):335-366.
[2] BoucherTF,OzanneMV,CarmosinoML,etal.Astudyofmachinelearningregressionmethodsformajorelemental
analysisofrocksusinglaser inducedbreakdownspectros
copy[J].SpectrochimicaActaPartBAtomicSpectrosco
py,2015,107:1-10.
[3] LeiZhang,YaoGong,YufangLi,etal.Developmentofacoalqualityanalyzerforapplicationtopowerplantsbased
onlaser inducedbreakdownspectroscopy[J].Spectro
chimicaActaPartB:AtomicSpectroscopy,2015,113:
167
-173.
[4] HaddadJE,BruyèreD,IsmaelA,etal.Applicationofaseriesofartificialneuralnetworkstoon sitequantitativea
nalysisofleadintorealsoilsamplesbylaserinduced
breakdownspectroscopy[J].SpectrochimicaActaPartB
AtomicSpectroscopy,2014,97:57-64.
9
3
4
激光与红外 No.4 2021 郭宇潇等 一种两阶段变量选择的LIBS定量分析方法