癌症基因表达数据的熵度量分类方法

更新时间:2023-06-07 08:16:10 阅读: 评论:0

癌症基因表达数据的熵度量分类方法
庄振华,王 年*
,李学俊,梁 栋,王 继
(安徽大学计算智能与信号处理教育部重点实验室,安徽合肥 230039)
摘 要:基因芯片技术的出现和发展为生物医学领域带来了深远影响,运用分类方法研究其产生的
海量数据对癌症的分类及治疗有重要意义.该文提出一种利用熵度量作为指标进行癌症基因表达数据
特征提取的方法.首先对基因表达数据进行筛选并计算各个基因的熵,然后提取出熵最大的若干基因作送锦旗感谢语
为特征基因,并用支持向量机进行分类.对前列腺癌基因表达数据的留一法以及分组法实验都证明了该
方法的有效性.
关键词:分类;特征基因;熵
中图分类号:T P18    文献标识码:A    文章编号:1000-2162(2010)02-0073-04C l assification of tu mor gene expressi on data bad on entropy m easure
Z HUANG Zhen -hua ,WANG N ian,LI Xue -j u n ,LI ANG Dong ,WANG Ji
(K ey L abo ra t o ry o f Inte lli gent Co m puti ng and Signal Processi ng ,M inistry o f Education ,A nhu iU niversit y ,H efe i  230039,Chi na)
Abst ract :DNA m icroarray techno l o gy has brought a far -reachi n g i m pact on the b i o m edical field ,and it is very sign ificant f o r usi n g classificati o n m ethod to ana l y ze tum or gene expression data .Th is paper propod an al g orith m for obta i n i n g infor m ati v e genes of t u m or gene expressi o n data by utilizi n g entropy as an i n dicator to .The w ho le pr ocess w as done by first putti n g tu m or gene expression data into strata and calcu lati n g the entropy of each ind i v i d ual cancer genes .Then ,veral genes w ith the highest entropy w ere lected and classified usi n g SV M.The effectiveness of th is al g orithm was proven by leav i n g -one m ethod and group m ethod .
K ey w ords :classificasion ;i n for m ative genes ;entropy
癌症之所以长期以来难以攻克,其主要原因之一就是不同种类的癌症都有自己的特点,相同的药物以及治疗方法无法对所有组织的癌症都产生疗效,即便是症状相同的癌症,也无法使用同样的治疗方法.为了使相应的治疗方法最大限度地发挥作用,需要开发一种能够正确区分各种癌症的技术.DNA 微阵
列技术的出现不仅为癌症分类提供了一种全新的技术手段,同时也积累了大量的癌症基因表达数据使得研究人员能够更加深入地认识癌症的本质.
目前用于研究基因表达数据分类的方法主要有分层聚类法
[1-3]、贝叶斯决策[4,5]、人工神经网络[6]、决策树[7,8]、支持向量机[9-12]以及关联空间[13]等.由于基因表达数据的特殊性,无法获得足够多
收稿日期:2009-05-21
基金项目:国家自然科学基金资助项目(10601001,60772121);安徽省自然科学基金资助项目(070412065);安徽省教育厅自然科学基金资助项目(2006K J 030B )
作者简介:庄振华(1984)),男,福建漳州人,安徽大学硕士研究生;*王年(通讯作者),安徽大学教授,硕士研究生导师,E -m a i:l wn_x lb @ahu .edu .
引文格式:庄振华,王年,李学俊,等.癌症基因表达数据的熵度量分类方法[J].安徽大学学报:自然科学版,2010,34
(2):73-76.
2010年3月
第34卷第2期安徽大学学报(自然科学版)Journa l o f Anhu iU n i versity (N a t ura l Sc i ence Ed iti on)M arch 2010V o.l 34N o .2
的样本.在数据维数远大于样本个数的情况下运用机器学习的方法进行分类显得有些困难.因此,如何有效地从基因数据中挑选出蕴含大量分类信息的特征基因显得尤为重要.Golub 等人
[14]于1999年提出了以/信噪比0作为特征提取指标,用投票表决法对白血病的两个亚型进行了分类研究.2002年,S i g h 等人[15]选用了与Golub 相同的特征提取指标,用K 近邻法作为分类方法对前列腺癌基因进行了分类研
究.此后,阮晓钢等人[16]在Go l u b 和S igh 等人的研究基础上提出了一种基于/信噪比0指标的特征提取
方法)))CLUSTER _S2N,该方法首先用K 均值法将数据聚类,然后利用/信噪比0指标进行特征基因的挑选,最后用支持向量机对降维后的数据进行分类.
CLUSTER _S2N 法相对于传统的分类方法有着更好的分类正确率,但是该算法的输出结果并不稳定.这是由于K 均值聚类的分类效果依赖于聚类中心的初始值,并且容易陷入局部最优,即使选用同样的
特征基因个数,每次实验所挑选出来的特征基因也未必是相同的集合.同时,K 均值聚类法的鲁棒性不强,运算复杂度也较高,这些问题都限制了该方法的实用性.为此,该文提出了一种基于熵度量的特征基因提取方法.该方法使用熵度量作为提取特征基因的指标,并用支持向量机(SupportV ecto rM ach i n e)作为分类器对所提取的特征基因进行分类.通过对前列腺癌基因表达数据进行特征提取,并分别采用留一法和分组法进行了实验,取得了较好的分类效果,验证了文中算法的有效性.
1 特征基因的提取
1.1 数据筛选
唠叨的妈妈作文实验数据的训练集中包含着成千上万的基因,并非所有的基因都携带了与分类相关的信息.有些基因在所有样本中的表达水平十分相近,即便这些基因携带着分类信息,它们的作用也容易被噪声所淹没.一旦这些基因参与分类,只能徒增运算复杂度.
定义式(1)和式(2)对基因表达数据进行筛选
m ax (g i )-m i n (g i )<50,
(1)m ax (g i )m i n (g i )<5,(2)
其中,m ax (g i )为第i 个基因在所有样本中表达等级的最大值;m in (g i )为第i 个基因在所有样本中表达等级的最小值.如果某个基因在所有样本中的表达情况符合式(1)或者式(2),便将该基因从数据集中剔除.为了将数据的统计分布概率统一归纳在[0,1]区间内,对筛选之后的数据集进行了归一化处理.
腹泻吃什么食物1.2 熵度量
熵是信息的度量,这个度量是由该消息的不确定性来定义.一个消息出现的概率越小,它所带来的信息量就越大,反之,它所带来的信息量就越小.这种信息度量的方法是由香农(C laude E l w ood Shannon)提出的,也称为熵.假设第i 个基因在所有样本中符合某一概率分布p (g i ),则根据熵公式,该基因的熵为
H (g i )=E n j=1p (g ij )log 21p (g ij ),(3)
小鱼卡通图片其中,g i 表示第i 个基因,g ij 表示第i 个基因在第j 个样本中的表达等级.在实验中,假设所有基因符合均值为L i ,方差为0.5的正态分布,L i 为第i 个基因在所有样本中表达等级的均值.
根据式(3)对经过筛选后的基因数据进行熵值计算,然后挑选那些熵值较大的基因作为特征基因.在接下来的分类算法中,只选择训练集和待测集中的特征基因作为分类器的输入数据,由此大大改善了运算复杂度和分类正确率.
2 支持向量机
支持向量机(SupportV ector M achine)是Vapnli k 等人提出的基于统计理论的一种学习方法,该方法能较好地解决非线性、高纬度、小样本等问题,十分适合于基因表达数据的分类.在处理非线性问题时,支持向量机通过某个非线性变换5将样本由输入空间映射到某个高维空74安徽大学学报(自然科学版)第34卷
间,然后在该空间中构造最优分类超平面.在构造最优分类超平面时,训练算法只涉及空间中的内积问题,因此只要寻找一个核函数k (X i ,X j )=35(X i ),5(X j )4,且k (X i ,X j )满足M ercer 条件,那么该核函数就对应该变换空间中的内积.
此时,目标函数转化为
m ax H (a)=E N i=1
a i -12E N i=1E N j=1y i y j a i a j k (X i ,X j ),(4)其中,E N i=1y i经典爱国歌曲
a i =0,a i \0,i =1,2,,,N.
判别函数
f (X )=sgn (
E N i=1y i a i k (X i ,X )+b ),(5)此处所采用的核函数为
k (X i ,X )=[(X i #X )+1]3.(6)
由式(4)~(6)可知,支持向量机在构造最优分类超平面时并无需显式计算非线性函数5,而只需计算核函数,从而避免维数灾难问题.
3 实验结果
3.1 实验方法
文中分别采用留一法和分组法对前列腺癌样本进行了实验.前列腺癌基因表达数据共有102个样本,其中正常样本50个,癌症样本52个,每个样本包含12600个基因(数据来自于http ://www.broad .m i.t edu /cg i-b i n /cancer /datats .cg i).留一法实验,即每次从数据集中选取一个样本作为待测样本,其余样本作为训练样本进行分类实验,直到数据集中每个样本都被作为待测样本使用过一次为止.分组法则是首先随机地将数据集划分为训练集和测试集,其中训练集包括35个癌症样本和35个正常样本,测试集包括17个癌症样本和15个正常样本,然后再利用训练集来构造分类模型对测试集进行分类实验.这两种实验方法中,训练集合和测试集合相互独立,保证了实验的客观性.
分类算法具体步骤如下:
S tep1:根据式(1)、(2)对数据集进行筛选;
S tep2:根据式(3)计算筛选后数据集中每个基因的熵;
S tep3:选取熵值较大的若干个基因作为特征基因;
S tep4:用支持向量机对特征基因数据进行分类.火车上的邂逅
3.2 实验结果与分析
对所选用的102个前列腺癌样本基因表达数据,按照该文的算法和文献[16]的算法,其实验结果如表1、图1和图2所示,该文的方法不论在留一法实验还是在分组法实验中都能取得较好的分类结果.使用留一法进行实验时,训练集共有101个样本,而使用分组法进行实验时,训练集只有70个样本.因此,相对于分组法实验,留一法可以在特征基因较少的情况下取得较好的效果.
在运算复杂度方面,文中所提出的特征提取方法在配置为酷睿双核为1.80GH z 、内存为2GB 的计
表1 实验结果比较T ab .1 Co m par ison of exper i m en t resu lts 算法实验方法特征基因个数分类正确率该文的方法留一法8094.12%CLU STER _S2N 留一法5087.25%该文的方法
分组法30090.63%CLU STER _S2N 分组法30087.50%
算机上,使用M atlab 进行留一法实验的时间
为49.54s ,而CLUSTER _S2N 法则耗时
1377.2s .这是由于K 均值聚类法需要不断
地进行分类的调整,不断计算新的聚类中心,
当面对高维数据时,运算的时间非常长.而文
中所采用的特征提取方法无需经过聚类筛选
这个步骤,大大提升了运算的时间效率.75第2期庄振华,等:癌症基因表达数据的熵度量分类方法
4 结 语
利用DNA 微阵列数据进行癌症组织和正常组织的分类识别是当前生物信息学研究的主要方向之
一.作者提出了一种基于熵度量的特征基因提取方法,并用支持向量机对特征提取后的基因表达数据进行了分类实验,在分类正确率以及运算速度方面较传统方法都有所提高.实验结果表明,用该方法进行基因表达数据的分类识别是可行的.
参考文献:
g20峰会杭州[1] E in M B ,Spe ll m an P T,B rown P O,et a.l C luster ana lysis and display of genom e -w i de expression pattenrs[J].
Proc N atl A cad S ci US A,1998,95(25):14863-14868.
[2] Braz ma A,V ilo J .G ene express i on data analysis[J].FEBS Letters ,2000,480(1):1724.
[3] 郎显宇,陆忠华,迟学斌.一种基于/基因表达谱0的并行聚类算法[J].计算机学报,2007,2:311-316.
[4] A nderw D K,M iche l S chu mm er ,L ee H,et a.l Bayesian class ificati on of DNA array expressi on data[R ].T echn ical
Repor t UW-CSE,2000.
[5] Zhou X B ,W ang X D,D ougherty E R.A Bayes i an approach to nonli near porb it g ene l ection and classificati on[J].
J ournal of the F rank lin Institute ,2004,341(1,2):137-156.
[6] K han J ,W ei J S ,R i ngn  r M,e t a.l C l assifi cation and diagnostic pred i c ti on of cancers usi ng gene express i on
profili ng and artifi c ial neural ne t w orks[J].N a t ureM ed icine ,2001,7:673-679.
[7] Zhang H P,Y u C Y,S i nge r B ,et a.l R ecursive partiti on i ng for tu mo r classificati on w it h gene expressi on m i corarray
data[J].PNA S USA,2001,98(12):6730-6735.
[8] 李颖新,阮晓钢.一种癌症基因表达数据的知识提取方法[J].电子学报,2004,32:1479-1482.
[9] G uyon I ,W eston J ,Barnh ill S ,e t a.l G ene lecti on f o r cancer class ificati on usi ng suppo rt vecto r m achines[J].
M achine L earning,2002,46:389-422.
[10] V i nayaga m A,K i n i g R,M oor m ann J ,et a.l A pp l y i ng support vector m ach i nes fo r gene onto l ogy bad gene f uncti on
prediction[J].B M C B ioinfor m atics ,2004,5:116.
[11] Zhang H H,Ahn J ,L i n X,et a.l G ene lection using suppo rt vec t o r machines w it h non-convex pena lt y [J].
B ioinformatics ,2006,22:88-95.
[12] V alenti ni G,M ulli M,R uffi no F.Cancer recogn ition w i th bagged en m bles o f support vecto r m ach i nes[J].
N eurocomputing,2004,56:461-466.
[13] 卢新国,林亚平,王海军,等.基于微阵列基因表达谱的一种关联空间的癌症分类算法[J].电子学报,2008,
4:614-619.
校园超市
[14] G olub T R,S l on i m D K,T a m ayo P,et a.l M o l ecular class ificati on of cancer :c l ass discovery and c l ass pred icti on
by gene expression mon it o ring[J].Science ,1999,286:531-537.
[15] Si ngh D ,F ebbo P G,R oss K,et a.l G ene expression correlates o f cli n i ca l pro sta te cance r behav ior[J].Cancer
C ell ,2002,1:203-209.
[16] 阮晓钢,晁浩.肿瘤识别过程中特征基因的选取[J].控制工程,2007,14(4):373-380.(责任编校 于 敏)76安徽大学学报(自然科学版)第34卷

本文发布于:2023-06-07 08:16:10,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/892306.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   分类   数据   方法   进行   表达   样本   实验
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图