animationSAS-决策树模型
决策树是⽇常建模中使⽤最普遍的模型之⼀,在SAS中,除了可以通过EM模块建⽴决策树模型外,还可以通过SAS代码实现。决策树模型在SAS系统中对应的过程为Proc split或Proc hpsplit,两者基本⼀样,后者效率更⾼,但在SAS help都查不到这两个过程步,本⽂参考相关资料主要介绍Proc split过程。其语法结构为:
P roc split options;
Code options;
英语在线翻译中文hurt怎么读Decision decdata options;
Describe options;
Freq variable;
In|input variables/options;
Priors probabilities;
absorbing线上授课平台Prune node-identifier;
Score options;
Target variable;
1)在proc split中,d ata=指定分析数据集; outimportance=指定输出数据集,包括⾃变量的重要性;outleaf=指定输出数据集,包括各叶节点的统计指标;outmatrix=指定数据集,包括描述性统计指标;outq=指定输出数据集,包括⼦树的统计指标;outtree=指定输出数据集,包括描述树的统计指标;leafsize=指定⼀个叶节点包含的最少观测数;maxbranch=指定⼀个节点的最⼤分枝数;maxdepth=指定最⼤的数深度;splitsize=指定⼀个节点分割的最⼩观测数;subtree=指定选择⼦树的⽅法。
比较英语
proc split ain outimportance=test_1 outleaf=test_2 outmatrix=test_3 outq=test_4 outtree=test_5;
in arpu mou gprs;
thursday是什么意思graduallytarget liwang_flag;
四级计分器run;
asss=指定模型评估⽅法,包括impurity、lift、profit、statistic。
criterion=指定决策树分割标准,针对⼆分类变量和分类变量,Chisq表⽰pearson卡⽅,probchisq表⽰pearson卡⽅的p值,为默认,entropy 表⽰信息增益,eratio表⽰信息增益率,gini表⽰通过gini系数分割;针对定距、定⽐变量,variance,probe表⽰F-test的p值,为默认,F表F统计量。其中,ID3算法使⽤信息增益作为属性分割标准,C4.5、C5.0算法使⽤信息增益率作为属性分割标准,CART算法使⽤gini系数作为属性分割标准,CHAID算法使⽤卡⽅和F检验作为属性分割标准。
2)code⽣成data步代码,⽤来给观测计分,file=指定代码输出⽂件。
3)decision。
4)describe⽣成决策树规则的描述,file=指定描述输出⽂件。
5)freq表⽰给⾃变量赋予频数。
6)in或input指定⾃变量,可以申明多次,在“/”后的level=代表输⼊变量的类型,interval、ordinal、nominal,默认为interval,当⾃变量有多个类型时,可以申明多个input,然后后⾯⽤level指定变量类型。
7)priors指训练集中⽬标类的先验概率,与decision互斥,proportional(pro)指各类在训练集中的占⽐,或直接列出各类占⽐,如
priors‘0’=0.6‘1’=0.4。
8)prune表⽰剪枝,与intree=和indmsplit=选项合⽤。
9)score进⾏计分,data=指定输⼊数据集,out=指定输出数据集。
10)target指定因变量,在“/”后,level=指定因变量类型,包括binary、nominal、ordinal、interval,默认为interval。scigen
Proc split ain leafsize=50 maxbranch=3 maxdepth=6asss=impurity criterion=chisq;
Input arpu mou gprs/level=interval;
Input product_flag/level=nominal;
Target liwang_flag/level=binary;
Code file='c:\urs\edcba123\desktop\'; Describe file='c:\urs\edcba123\desktop\
'; Score ain out=test;
Priors proportional;
Run;