基于互信息的特征选择
1. 模型bll
定义D1 病集S由有关心脏病病种(i=1,2,…,n)组成,令患者的疾病信息熵-为:
(1)
显然疾病信息熵具有Shannon信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.
定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式
(2)
其中,—病例库中第个病例的第个属性值;
m—病例特征数量;
n—病例库规模;
定义D3:一个信息系统(IS)可以表达为
(3)
其中,U 是对象的非空有限集合, R是属性的非空有限集合,是属性值的集合,Vr 表示了属性任意时的属性值范围, 是一个信息函数,它指定U中每一个对象新目标七年级上册英语教案 x grav的属性值.
当R中的属性集可进一步分解为条件属性集合C和决策属性集合breatherD,且满足时,信息系统(IS)称为决策系统(DS). ai为某一条件属性,则决策属性D对某一条件属性ai的依赖程度可以利用下式计算-:
(4)
式中,RC、RD 分别表示条件属性集合C和策属性集合D在论域上的等价关系.表示RD 相对于RC 的条件熵.的值越大,则条件属性ai对决策属性D的重要性越大.如果,则说明ai对于D不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性.
1.3 基于互信息的特征选择:
三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法。
结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T所能提供的关于随机变量C的互信息,并计算出每个特征对该互信息的贡献。
苗夺谦等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文提出了一种基于互信息增益率的属性约简算法; 颜艳等提出了一种改进的互信息的属性约简算法,基于改进的互信息的启发式算法,并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。
熵的公式:
联合熵:
条件熵:
联合熵和条件熵的关系:
1.3.1 互信息(MI)
互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.
互信息越大,这两个随机变量之间的联系月越紧密.当互信息趋近于零时,这两者之间相互独立.
特征和类之间的互信息:P(wi)是特征wi的概率, 表示wi没有发生.P(ci)是类cj的概率,P(cj,wi)是类cj与特征wi的联合概率.
是特征之间的互信息.
trick or treat
互信息和信息熵之间的联系:
impression
互信息和信息熵的关系见图1.
图1 互信息和信息熵的关系图
连续型时,(p(x), p(y) 和p(x,y)都是连续的)
计算连续的基因表达变量的熵或互信息,首先要将其离散化,一般采用直方图方法,并根据表达向量的值域范围选择合适的绅士的英文bin值,联合熵计算可采用二维直方图法.
连续变量的互信息计算:
第一种,histogram 方法 (Moddemeijer, 1989),将数据划分成等尺度(直方图)的间隔.该方法在低维度条件下,可以获得满意解;随着数据维度的增多,histogram估算值的精确度呈递减趋势.
第二种,using the continuous kernel bad density estimator to approximate I(x;y), as propod by Kwak and Choi (2002b). 利用基于密度评价者的连续核心近似互信息I(x;y),该方法由Kwak and Choi (2002b)提出.
retina display给出一个变量x的N个样本,近似密度函数为:(基于互信息特征选择标准: 最大的依赖,最大关联, 最小冗余)
其中,是Parzen窗口函数(Parzen window function (Parzen, 1962));是第i个样本;h是窗口宽度.Parzen已证明了,选择适当的和h,当N趋近于无穷时,近似函数趋近于真实的p(x).
通常,可用高斯窗口(Gaussian window):
其中,,d是样本x的维度,是z的协方差,
以上计算可以利用peng制作的matlab的互信息计算工具包.
/matlabcentral/fileexchange/14888-mutual-information-computation
1.3.2 基于互信息的特征选择的算法模型
建立一个特征选择的模型,可以描述为:设原始特征空间为FR,包含有n个特征,c为分类类别,现要从FR中选择k个最有效的特征,形成一个新的特征空间R ,要求k< n.
利用互信息的特征选择的算法模型,包括二阶段
1)内部阶段为:经典的 MIFS (Battiti, 1994)用来选择特征的mt t是什么意思个序数,——找到更高级的该种算法。经典的MIFS算法的步骤如下:
改进的算法:
MIFS和 MIFS-u算法都是近似算法,随着输入特征的增加,特征选择性能逐渐下降.希望考虑待选输入特征和已选输入特征之间互信息在特征选择过程中的权重是一致的,我们可以用 待选输入特征 和各个已选输入特征 之间互信息J(F F ;C)的均值作为待选输入特征和
已选输入特征互信息J(F S;C) 的近似,这样,权重系数可以取常数,在整个特征选择过程中,考虑与已选输入特征互信息权重的系数是一致的.
2)外部阶段为:最小化训练数据集的基于案例推理的错误,以确定序数m
外层阶段解决内层阶段没能解决的问题:确定特征m的最佳序数.假定数据集中有n个特征,MIFS首先用来选择1到n的特征,并形成一连串的特征集:
1.3.3 比较这n个连续的特征集
,找出子集,使得CBR的训练误差(用MMRE衡量)最小.因此,dimensionalm是特征的最佳序数,是最佳数据集.