在线评论文本特征表示方法研究
王倩倩;陈康
【摘 要】随着新兴技术与新的商业交易模式不断涌现,网络交易激增,网络交易评论也呈现出爆发式增长态势.针对大数据环境下网络评论文本空间高维的现象,提出借助商品标题和商品描述进行二重筛选的网络评论文本特征表示方法.该方法借助种子词而不是主题词典描述文本特征,降低了文档维度,减少了迭代次数,提高了在线评论文本分类的速度;同时,在文本映射时经过直接映射和间接映射二重筛选,减少了文本分类的疏漏,提高了文本分类的精度.
【期刊名称】阈值英文《金陵科技学院学报(社会科学版)》
【年(卷),期】2019(033)001
香港科技大学面试
【总页数】calu5页(P56-60)
【关键词】文本表示;种子词;词聚类;文本分类;降维;在线评论;文本特征
smile的意思【作 者】王倩倩;陈康
【作者单位】contextual金陵科技学院人文学院,江苏南京210038;金陵科技学院人文学院,江苏南京210038
【正文语种】中 文
【中图分类】H08;TP391.1
天然气ng
随着新兴技术与新的商业交易模式不断涌现,尤其是手机购物的兴起,便捷的购物方式使得网络交易呈现出爆发式增长态势。急速增长的网络交易量必然会产生大量的网络交易评论,这些交易评论对消费者的决策产生了重要影响。研究表明,购物时如信息不对称情况相对严重及羊群效应存在时,消费者的网购行为受网络评论的影响更大[1]。但是网络评论形成速度快、语言随意且多变,此外一些热门产品的评论数量巨大,这为获取有价值的信息带来了一定的困难。从大量的评论中找出有价值的关键信息,帮助用户快速进行购物决策、减少用户对评价内容的参考成本,评论文本的特征表示就显得尤为重要。特征表示的好坏影响着分类器的分类精度和泛化性能,并直接影响着人们能否快速准确地获取自动摘要、辨析评论中的情感褒贬倾向等有用的信息[2]。
一、文本特征表示方法
cs之歌
hiro
目前,在评论文本信息处理时通常采用向量空间模型来描述文本向量。由于直接用分词和词频统计获取文本向量中的各个维,所以数据会很大[3],因此需要找出最具代表性的文本特征,通过特征表示来对文本向量进行降维。
目前,对在线评论文本特征表示的研究主要集中在两个方面。一是通过构造各类评估函数,直接从原始特征中挑选出一些具有代表性的字、词或者词组、短语作为特征[4],如信息增益法、互信息法、文档频率法等。但是由于词语本身存在同义、多义以及对短语和上下文的依赖,单纯将词语孤立地进行研究,破坏了文档中的相关关系和语义特征,导致这种提取存在较大的局限性[5]。二是采用映射或者变换的方法把原始特征变换成较少的新特征来对文本进行降维,如主成分分析法、潜在语义搜索法等。也有学者抽取《hownet概念词典》中的概念作为特征来构成文本向量[6]。由于概念空间比词空间小,而且各分量之间相对独立,因此,概念特征比词特征更适合表示文本内容。但是概念词有限,不能涵盖网上出现的大量新词,尤其不适用在线评论这类发表自由、网络口语使用频繁的文本。鉴于在线评论灵活多变的特性,有学者提出了基于文本发现的Web表示方法,即用词和新词共同作为Web文本特征的表示项,从而提高了Web文本的表达能力[7]。但是新词依赖于原有的主题词典,召回率和准确率不高。
总而言之,网络产品评论具有句子较短、断句随意、用词口语化和语法标点符号使用不规范等特点,要从内容和形式自由度高、数据噪声大的评论信息中提取关键特征较为困难。因此,本研究在特征词选择算法的基础上,提出了将商品标题和商品描述作为训练集的文本特征表示方法,即使用可扩展的支持向量机(Lengthen Support Vector Machine,LSVM)方法。该方法不借助主题词典,先从商品标题和商品描述这些训练集中对词的贡献情况进行分析,测试集和训练集可能有不同的来源,是通过不同的途径取得的,换句话说,二者本来就是分开的。因此,本研究没有单独的测试集,而是通过词聚类生成表示某一主题的种子词,然后用种子词作为文本的特征项,最后得到评论文本的特征向量描述。具体研究思路如图1所示。
图1 文本特征表示思路
二、训练集种子词选取
词聚类是从语义上通过词与词之间的距离来判断表达的意义是相同、相近还是不同。本文采用k模聚类[8]对范畴属性进行聚类,即使用一个较小的集合,用每个类的高频词来表示这个类,用种子词来代表其他近义词以表达某一主题的内容。例如:尺码(肥大、大码、宽松、紧身、长款)是以种子词“尺码”表示一个词类,词类中的任意一个词为该词类的一个元素,即“
肥大”“大码”“宽松”“紧身”“长款”分别为种子词“尺码”表示的词类的一个元素,或者说是种子词“尺码”的一个元素。对训练集种子词的选取分两步进行:
一是从商品标题中选取种子词。因为商品标题需要尽可能多地涵盖商品属性,这样才更有可能被用户检索到,加之商品标题往往比较短,一般30字之内,因此从商品标题中选择特征词作为种子词,只要通过分词和去除停用词[注]停用词(Stop Words)是指在信息检索中为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词。就可以得到。如一件连衣裙的标题是“2017秋冬装新款韩版时尚优雅气质大码显瘦收腰长袖打底连衣裙女”,我们从这条标题中得到的种子词为:秋冬装、新款、韩版、时尚、优雅、气质、大码、显瘦、收腰、长袖、打底、连衣裙、女。
二是从商品描述中选择特征词作为种子词。商品描述是卖家在商品详情页面写给买家看的有关商品特点、质地、款式等信息的陈述,包含着重要的商品特征内容。从商品描述中选取种子词可以减少对大量评论文本检索的时间。具体做法如下:分别对商品标题、商品描述进行文本预处理,分词,去除停用词,计算词频,设置一个阈值,选择频度大于阈值的词作为种子词,得到的两组种子词进行合并,取并集,得到最终的种子词集A(zc1,zc2,zc3……zck),zc1、zc2、zc3……zck为种子词。
三、文本特征的具体表示
所谓特征表示,就是从多个度量值集合中,按某一准则选取出供分类用的子集,以其作为降维的分类特征[9]。本研究在SVM模型的基础上,采用结合商品标题和描述的词聚类方法,将关键词对应到特征空间,对评论文本的特征向量进行描述。
(一)种子词文本映射
从商品标题和商品描述中得到种子词集A(zc1,zc2,zc3……zck),zc1、zc2、zc3……zck为种子词。对于评论文本d进行分词处理,去除停用词,选择频度大于阈值的词作为关键词,设为c1、c2……ch。这些关键词可以映射到评论文本的特征空间,即:假设c1在种子词集A中能找到,其与种子词zc1相同,则直接将其映射为文本d的特征词;假设c2不是种子词,但是种子词zc2的元素词,则将c2映射为种子词zc2,再映射为文本d的特征词假设c3在种子词集A中找不到,即c3不是种子词也不是种子词的元素词,则将其去除(图2)。
图2 种子词文本映射示意
(二)权重计算
根据映射规则,将权重按照下面的公式进行计算,共三种情况:
第一,若ci为种子词,设G(ci)为此类权重因子,H(ci)为词ci在文本d中所含的信息量。权重计算公式为
Q(ci)=G(ci)H(ci)预计
第二,若ci不是种子词,但是种子词zci的元素词,则用距离系数来计算权重。根据WordNet的语义相似度计算两个词之间的距离[10],用Dist(xi,xj)表示两个词之间的距离,Dist(xi,xj)越小,表明两个词之间的相关度越大,故用1/Dist(xi,xj)表示两个词之间的相关度,权重计算公式为
Q(ci)=G(zci)H(ci)/Dist(xi,xj)
第三,在实际中还可能出现两个或多个关键词生成相同特征词的情况。如zci是种子词,cj不是种子词但却是种子词zci的元素词,则这两个词映射的特征词都是同一个词zci。这个特征词的权重为两个效应的叠加,权重计算需要依赖相似度进行计算,公式为
Q(ci)=(1/Dist(xi,xj)+1)G(zci)H(ci)
(三)文本特征表示
从以上两步得到种子词以及种子词所在类的元素词,可以表示成种子词的向量,用来表示文本特征。文本特征表示一般采用向量表示法,就是将文本表达为一个向量,看作是向量空间中的一个点,采用文本特征计算权重。由于文本特征表示包含种子词和元素词,因此,本研究中括号前的词为种子词,括号里面的词为元素词。根据以上距离,计算出权重,最终得到评论文本d的向量描述为