决策树算法在肝癌术后影响预测的应用frank sinatra>humanrace
摘要:决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。随着数据挖掘在医学领域上的广泛应用,本文对数据挖掘决策树算法原理及构建、ID3算法进行介绍,然后将ID3算法应用于肝癌病人预后影响中,构造出一棵决策树,再进行分析,得出预后影响的预测方法。
关键词:数据挖掘 决策树 肝癌 ID3算法
Application of Decision Tree for forecasting
the effect of Hepatic carcinoma operation
Abstract: It’s Decision Tree that is the significant method of generalizing knowledge and mining data for classifier and model prediction. With the Data Mining ud widely in the medical field, it will be introducted from the principle and organization of Decision Tree and ID3 algorithms in the essay. Then, we would like to forecast the effect of Hepatic carcinoma operation by constructing and analying Decision Tree with ID3 algorithms. Finally, we can conclude the effective method to slove the problem.美国时代周刊
Key words: Data Mining Decision Tree Hepatic carcinoma ID3algorithms
目 录
1.研究目标 (5)
2.分析方法与过程 (5)
2.1.总体流程 (5)
2.2.具体步骤 (6)
2.3.结果分析 (11)
3.结论 (13)
4.参考文献 (13)
目标
挖掘目标
1.挖掘
目前,癌症已经成为我们生命健康的主要杀手,我国每年新发癌症病例约为200万人,因为癌症死亡
人数高达为140万;据统计,近年来癌症死亡约占我国城乡居民死亡构成的22.32%,即我国每5人死亡中,就有一个是死于癌症的。其中,肝癌、胃癌、乳腺癌、宫颈癌、食管癌、结直肠癌和鼻咽癌合计占癌症死因的80%以上,癌症发病年龄提前了15-20年,35-55岁发病群体比率趋于上升。本文主要探究有关肝癌方面的内容,尤其是针对肝癌患者健康情况是否适合接受手术的具体研究。
原发性肝癌(PHC)是危害我国人民的一个主要恶性肿瘤,它流行广、出现症状后病程短、病死率高,中国疾病预防控制中心慢性非传染疾病预防控制中心一份检测报告的研究结果显示,近二十年来我国肝癌死亡率呈明显稳步上升,每年我国因肝癌死亡约30万例,其中约一半为原发性肝癌。自1994年以来,肝癌已经成为我国部分农村的首位癌症;在部分城市仅仅次于肺癌。
控制癌症肆虐的根本出路在于预防,但是,原发性肝癌起病隐匿,早期临床表现缺乏特异性,当临床症状明显者大多进入中、晚期,失去手术治疗机会或手术后5年生存率明显下降。虽然如此,但是原发性肝癌仍以肝切除术治疗的效果最好;另一方面,据调查统计,肝癌手术后5年的复发率却高达70%~95%,因而探索它们的影响因素,追求更好的远期治疗效果是当前肝癌诊治中的热点,也是难点。近年来,数据挖掘以融合多个学科、汇总多种方法、处理海量数据、挖掘重要信息等多个特点越来越广泛地引起了计算机、统计学等领域专家和学者的注意,同时在医学领域上,通过从海量的数据中,挖掘出有用的信息,为疾病的防控、诊断、治疗和医学研究的发展作出巨大的贡献。因此,选择适当的指标,以便于为手术的诊断和治疗进行最佳预测。
本文的挖掘目标是:
(1)选择合适的对肝癌病人预后有影响的指标,并以预后影响为评价标准;
(2)选择合适的模型算法对肝癌病人的预后影响进行评价。
2.分析方法与过程
2.1. 总体流程
本文选取第一届太普华南杯数据挖掘竞赛试题三中的某医院10年来肝癌病例总共4860例,每个病例有病人近80个信息,其中包括患者病历号、性别、年龄、学历、职业、住址、基本病史、临床体征、恶性肿瘤分类、实验室检验指标、影像学检查等,通过选取食道静脉曲张、门脉癌栓、HbsAg、Anti-HCV、肿瘤部位、肿瘤大小、肿瘤生长方式、肿瘤包膜、肿瘤旁的微小子灶、术后腹水等十个因素,根据它们的特征,建立ID3决策树的分类预测模型,实现肝癌手术的治疗效果和方案优劣的预测。其实质是:运用ID3算法进行数据挖掘,获得分类规律,推导出分类规则,即手术治疗效果和方案优劣预测模型。在数据挖掘的各种方法中,决策树归纳学习算法以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类正确率等优点而得到广泛的应用,目前其利用率高达19%。其中,决策树建树的基本原理可以用ID3算法来说明,ID3
算法是决策树算法的代表,又称贪心算法,它以自顶向下递归的各个击破方式构造决策树,采用分治策略,在决策树的构造过程中,在树的各个节点上利用特征属性的信息增益大小作为分枝属性选择的启发性函数,选择信息增益最大的特征作为分枝的属性。将决策树ID3算法应用于肝癌病人术后复发预测有着训练速度快,分类效率高,所建模型稳健性好等特点,通过数据挖掘决策树方法可为临床判断预后、选择治疗方案提供决策依据。
本文建模主要包括如下4个步骤: 步骤一:数据预处理; 步骤二:生成决策树;
步骤三:分类规则生成及化简; 步骤四:模型准确性评估。如图1。
orbis
图 1
对于选取到的对肝癌病人预后有影响的10个指标(食道静脉曲张、门脉癌栓、HbsAg 、Anti-HCV 、肿瘤部位、肿瘤大小、肿瘤生长方式、肿瘤包膜、肿瘤旁的微小子灶、术后腹水),再根据病人预后影响分为Y 、N 两个等级。这样经过预处理的数据包括10个影响分类的属性项和一个类别项(预后影响),随机抽取预处理数据(共20个数据)中80%的数据,即16个样本,作为训练集构造决策树并生成决策规则,20%的数据作为验证集检验模型的预测效果。
2.2. 具体步骤
science muum怎么读本案例采用TipDM 数据挖掘在线建模平台中的决策树ID3算法构建模型。
1、输入模型数据,包括两个部分,一部分是建模专家样本数据(包括训练样本和验证样本)的输入,另一部分是建模参数的输入。部分原始样本数据经过预处理后如表1所示:
表1 预处理后样本数据
X1X1 X2
X2
X3X3
X4X4
日语骂人的话X5
X5
X6X6
甘道夫和邓布利多
X7X7 X8X8 X9X9 X10X10 DECISION DECISION mid branch negative negative rightliver middle
dilation part
no less Y mid trunk positive positive rightliver middle infiltration no
have much
N rious no
negative positive leftliver big
dilation
notelevision什么意思
no
much Y no no negative negative allliver
verybig dilation integrate no
厨房英语much Y light branch positive positive rightliver small
infiltration integrate have no N mid trunk
positive negative rightliver middle
infiltration part no
no
Y light branch positive negative rightliver small
停电英语
infiltration no
have much
Y