虚点:一种减少特征值鸿沟的方法*
林游龙1,2爱心图片手势,余智华1,程学旗1,刘悦1
1中国科学院计算技术研究所,北京,10080
2中国科学院研究生院,北京,100190
E-mail: linyoulong@software.ict.ac
摘 要:基于向量空间模型的分类方法是目前各种分类方法广泛使用的文档结构表示方法,在对基于向量空间模型的分类方法的研究发现,基于向量空间模型的分类方法存在不合理之处,即特征值之间的“鸿沟”,这种鸿沟会导致向量空间模型中两点之间的距离的计算出现偏差,本文介绍了一种使用虚点的方法,这种方法消除了特征值之间的鸿沟,使得分类的效果得到了提高。该方法是通过重新定义特征权重,调整向量空间模型中点的特征值,即相当于重新定义向量空间中的点,这样的点是相对于原来向量空间模型中的点的矫正映射,即就好像是虚拟点一样,最后问题归结为计算向量空间模型中的点与虚拟点的映射函数。理论分析
表明虚点方法能提高基于向量空间模型的分类方法的效果,在SVM中运用虚点方法的实验结果表明,运用虚点方法的SVM的精确度得到了提高,这种结果验证了本文提出的虚点方法的有效性。
关键词:虚点;分类算法;特征权重;向量空间模型
鼠和狗的属相合不合VPM: A Method to Bridge the Gap between Features
Youlong Lin1,2 , Zhihua Yu1, Xueqi Cheng1, Yue Liu甲减的原因1
1Institute of Computing Technology, Chine Academy of Sciences, Beijing, 10080
2Graduate University of Chine Academy of Sciences, Beijing, 100190
E-mail: linyoulong@software.ict.ac
Abstract: Vector space model (VSM) is the widely ud model in the reprentation of the document structure in a variety of classification methods. The rearch on the vector
space model bad classification method shows that there is unreasonable point, that is, the gap between the features, this gap will lead to the deviation in the calculation of the distance between the two points in vector space model. This paper propos 白痰多是什么原因a method of the virtual point to eliminate the gap between two features which improve the performance of the text categorization. The method is to adjust the feature value of point in the vector space model by redefining the weight of feature which is equivalent to the redefinition of the point in the vector space. Compared with the point in the original vector space model, the point is assumed to be the correctly mapping, that is, like a virtual point像的造句. Finally the problem boils down to the calculating of the mapping function between the vector space model and of virtual vector space model. Theoretical analysis showed that the virtual-point method can improve the performance of text categorization bad on the vector space model. The experimental results of the support vector machine categorization method using virtual-point show that the performance has been improved, which verify that the virtual-point method is effective.
Keywords: Virtual point, text categorization, feature weight, vector space model
1 引言
随着信息时代的高速发展,如何对自然语言文本进行挖掘,特别是对其按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题,这就是文本挖掘中很重要的一类任务一文本分类[1]。自动文本分类(Automatic Text Categorization)或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程[2]。随着文本信息量的快速增长,文本分类已成为信息检索、知识挖掘和管理等领域的关键技术[3][4]。文本分类的精确程度取决于特征提取[5]和分类算法[6]。人们提出了很多文本分类方法,例如k-最近邻分类法,贝叶斯分类,决策树和神经网络[7]。最广泛使用以及效果最好的文本分类方法是支持向量机与knn方法[8][9]。
支持向量机是由Vapnik等人提出的一种学习技术,是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术[10]。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域[11]。
k-最近邻居分类(KNN)方法基于类比学习[12],采用SVM(向量空间模型)[13]表示文档,
是一种非参数的分类技术,在基于统计的模式识别中非常有效,对于未知和非正态分布可以取得较高的分类准确率,具有鲁棒性、概念清晰等诸多优点[14]。
本文在对基于向量空间模型的分类方法(如SVM [15][16])的研究发现,基于向量空间模型的分类方法存在不合理之处,即特征值之间的“鸿沟”,这种鸿沟会导致向量空间模型中两点之间距离的计算出现偏差,由于目前基于向量空间模型的分类方法都没有考虑到这种鸿沟,因此分类效果受到了一定的限制,因此要想进一步提高分类效果,就必须解决这种偏差。
本文介绍了一种使用虚点的方法,这种方法消除了特征值之间的鸿沟,使得分类的效果得到了提高。该方法是通过重新定义特征权重,调整向量空间模型中点的特征值,即相当于重新定义向量空间中的点,这样的点是相对于原来向量空间模型中的点的矫正映射,即就好像是虚拟点一样,最后问题归结为计算向量空间模型中的点与虚拟点的映射函数。理论分析表明虚点方法能提高基于向量空间模型的分类方法的效果,在SVM中运用虚点方法的实验结果表明,运用虚点方法的SVM的精确度得到了提高,这种结果验证了本文提出的虚点方法的有效性。
2 向量空间模型
向量空间模型(Vector Space Model, VSM)[8]是康奈尔大学Salton等人上世纪70年代提出并倡导的,文档可以转化为标引项(term)及其权重组成的向量表示,都可以看成空间中的点。向量之间通过距离计算得到向量的相似度。VSM中有三个关键问题:
(1)标引项(term)的选择
(2)权重的计算,即计算每篇文档中每个Term的权重
(3)空间中文档之间距离的计算。
王星雅Term可以是能代表文档内容的特征如:字、词、短语或者某种语义单元(比如:所有同义词作为1维)。对于权重计算,目前广泛使用的方法是TF*IDF方法,其中TF代表Term在文档中出现的次数。IDF代表Term的文档频率DF的倒数。两者相乘然后做线性编号就是此方法。计算完Term的特征权重后就可以在向量空间模型中用特征向量表示一个文档,即一个文档可以表示为一个向量空间模型中的一点。文档之间距离的通常有欧式距离、向量夹角余弦、向量夹角正弦和马氏距离等[9]。
3 虚点原理
3.1 虚点方法产生的背景-特征值鸿沟(GBF)
如图1所示,假设一个类的构成只有2个Term,其中Term权重用TF*IDF表示,则每个类都可以表示为一个带权重的Term的特征向量,假设类别1的分类中心为(1,1)。类别2的分类中心为(3,2),可知两者的对角点为(3,1),对角点相对于其它的点来说,特殊之处在于它对类别1的分类中心的距离只跟Feature1相关,而跟类别2的分类中心的距离只跟Feature2相关。那么问题就归结为对角点的分类问题,按照原来的向量空间模型,对角点有两个(1,2),(3,1)。其中(3,1)跟分类中心1(1,1)的Feature1的距离为特征Feature1的差值2.跟分类中心2(3,2)的Feature2的距离为特征Feature2的差值1。可以知道应该将对角点分到类别2(3,2)那一组,但从理论上可知,属于同一特征的值,可以用量来表示,但是属于不同特征的值无法用量来表示,因为两者的判定的标准不一样。Feature2的差值为2的数不一定大于Feature1的差值为1的数。因此仅仅从此对角点的分类问题应该无法判断到底属于哪一类。也就是Feature2的差值为2的数应该与Feature1的差值为1的数相等。此时对角点到两类的距离相等,符合无法判断类型的情况。因此原向量空间模型没考虑到这个问题,这就是特征值的鸿沟问题(GBF)的产生。如图1所示鸿沟为=1。
图1.虚点原理示意图
Fig. 1. Theory of Virtual Point Method
为了消除特征值之间的鸿沟。可以认为存在原分类点的虚点,这些点是由调整特征权重的分配来得到的。它们必须满足两个条件:
1、归一化条件。
2、调整后的两个类别虚点到虚对角点的距离必须相等。
如图所示,vp1和vp2分别对应分类点1和分类点2的虚点。现在的问题归结为本文提出的特
征鸿沟理论到底存不存在,用即特征鸿沟的的消除能不能带来分类效果的提高,从如图2所示,就是要证明在虚点空间中用vp1和vp2分类比原向量空间中分类的效果更好。
3.2虚点方法介绍
变量定义:假设向量空间模型中的分类点为类别1的分类中心和类别2的分类中心,必然存在一个点a,它跟的距离只跟Feature(1)相关,即特征距离,假设其为l(1),跟的距离只跟Feature(2),设为l(2)相关,这个点称为和的对角点。易知和的对角点有两个,任选其中的一个Feature(1)与Feature(2)之间的距离鸿沟d(12)定义为:d(12)=|l(1)-l(2)|。
虚点方法:存在特征权重(1),(2)满足归一化条件,并且使得分配权重后的向量空间中的点,即原空间中的和在虚点空间中的分别对应的点的虚点’和’的2个特征距离相等,即’和’到它们虚点空间中的对角点的离相等:l(1) = l(2)。这样在虚拟空间中特征之间的距离鸿沟就为零了。
关于对角点的说明:虚点空间与原空间的对角点不是独立存在的,他是针对分类点,以及虚点空间中分类点的虚点而提出的一个抽象的概念,它在现实中可能不存在。
补办手机卡需要本人去吗
到目前为止就只有一个问题了,即特征值鸿沟的观点是否存在?
3.3 虚点方法的例子
为了形象的说明整个流程,举个例子:比如判断一列火车属于快车与慢车的标准为:快车为,平均车厢的数量为10节,速度平均为180公里/小时。而慢车的为:平均车厢30节,速度平均为80公里/小时。如果此时,有一列特殊的列车,车厢为10节,速度为80公里/小时。那么根据向量空间模型的公式,可以算出这种列车对快车的差异为速度相差100公里/小时,车厢没差异。对慢车的差异为车厢相差20节,速度没差异,进行标准化以后(假设速度的标准化为原值除以180,车厢的标准化为原值除以30),差异分别为100/180,20/30。从而知道此列车属于快车。但是理论上可知此列出应该不能判断归属,因为20节车厢跟100公里/小时这两个数无法比较。此时鸿沟为差异值的差值即|100/180-20/30|=0.11。而这列车可能现实中不存在,它只是针对快车和慢车而提出的一个概念。
因此本文设特征权重(1),(2)来分别调整火车车厢跟火车速度的权重,设归一化条件(1)×(2)=1。此时(1)×(20/30) = (2)×(100/180)。可以得出(1)0.9129,(2)1.0954。此时虚拟分类点为快车平均节数为:9.129节,速度为197.172公里/小时:慢
车平均节数为。27.387节,速度为:87.632公里/小时。此时就能用虚拟点分类了。可以计算特殊列车在虚点空间中的映射点为9.129节与 87.632公里/小时,从而计算得到鸿沟为0,此值小于<0.11。说明使用快车,与慢车的虚点用来分类比使用原点分类来得更接近实际。
3.4 虚点方法的另一种解读
假设原空间中存在分类点(0,0)点和(a,b)点。根据虚点方法可知,它们在虚点空间中分别对应虚点’(0,0)和’(a1,b2),其中,12=1设’和’的距离为c,则根据直角三角形公式,已及直角三角形不等式可知:
凤净梵 (1)
其中当a1=b2,时c有最小值。而a1=b2是虚点空间中的虚点满足的条件。因此虚点方法就转化为求虚点空间中虚点之间最小距离。即3.1节提出的虚点满足的两个条件变为:
1、归一化条件。
2、调整后的两个类别之间的距离最小。
3.5虚点方法的求解
输入变量定义:假设向量空间模型由n维特征向量构成,类别1的分类中心为(a1,a2,...an),类别2的分类中心为(b1,b2,...bn)。
输出变量:特征权重1,2,n。
求解原理:
(2)
限制条件为:
(2)
根据以上可知,这是最优化问题,因此本文使用拉格朗日乘数来解决此问题。得到如下函数:
(3)
其中为拉格朗日乘数。为了求1, 2, …n。将函数(3)分别对1, 2, …n求偏微分得:
(4)
即式子
(5)
解得:
(6)