语义相似度的计算方法研究

更新时间:2022-07-29 09:38:28 阅读: 评论:0

小麻雀教案-中秋节有感


2022年7月29日发
(作者:xp破解)

语义相似度的计算方法研究

信息与计算科学余牛指导教师:冉延平

摘要语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器

翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展爱戴网,语义

相似度计算成为自然语言处理和信息检索研究的重要组成部分.本文介绍了几种典型的语

义相似度的计算方法美白淡斑,总结了语义相似度计算的两类策略黑发晶功效,其中重点介绍了一种基于树状

结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.

关键词语义相似度;语义距离;知网;语料库

TheReachofComputingMethodsaboutSemanticSimilarity

YUNiu

(DepartmentofMathematicsandStatistics时光穿越,TianshuiNormalUniversity个人回顾,741000)

AbstractSemanticsimilarityisbroadlyudinmanyapplicationssuchasinformationretrieval商务谈判策划书,

informationextraction,textclassification评价秦始皇,wordndisambiguation中央成员,example-badmachine

translationandsoon.EspeciallywiththerapiddevelopmentofInternettechnologyinrecent

decades实习评语,Calculationofmanticsimilarityhasalwaysbeenanimportantpartofnatural

perintroducesveralmain

methodsofcalculatingmanticsimilarity,thentwostrategiesofmanticsimilarity

measurementaresummarized,andwefocuontheHownetbadonthestuctureoftreeand

uthemtocalculatethemanticsimilarity,andfinallythetwostrategiesareeasily

compared.

KeywordsSemanticsimilarity元宵节放假,Semanticdistance,Hownet颐和园ppt,Corpus

-249-

-250-

1引言

语义相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性.自然语言

的词语之间有着非常复杂的关系,在实际应用中珀尔修斯的儿子,有时需要把这种复杂的关系用一种简单

的数量来度量陈柏槐,而语义相似度就是其中的一种.词语的语义相似度计算主要有两种方法:

一类是通过语义词典去西双版纳旅游,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是

通过词语上下文的信息(本文只介绍了主要的理论方法)浮光跃金,运用统计的方法进行求解.对

于前一类基于树状层次结构的计算语义相似度方法的研究已经比较成熟,国外的Dekang

Lin[1],asi[2]等都给出了自己的比较合理的语义相似度计算公式和方法;国内

这方面起步较晚六一儿童节美篇文案,但发展很快鬼吹灯 小说,董振东[3],刘群蹈矩循规,李素建[4]等在这方面的研究做了很多开创性

的工作,李峰[5],杨哲[6]cx ahzskscn成绩查询2020,李熙[7],夏天[8]等后来者做了很多补充性和改进性的工作.针对以

上研究现状生日快乐祝福短信,笔者对当前的语义相似度研究成果进行了简单的归纳和总结荡然无存的近义词,然后对相关方

法进行了简单比较爱因斯坦智商测试题,并提出了研究的应用方向,以供相关研究人员参考和应用.

2语义相似度

什么是语义相似度?语义相似度是一个主观性相当强的概念布洛芬的副作用太大了,没有明确的客观标准可以

衡量.脱离具体的应用去谈论语义相似度,很难得到一个统一的定义.由于词语在语言结

构中的一般性,我们着重研究词语的相似度,进而推广到句子粮票收藏价格表,以致整个文本的相似度.

DekangLin[1]认为任何两个词语的相似度取决于它们的共性(Commonality)和个性

(Differentces),然后从信息论的角度给出了定义公式:

Sim(A,B)

logp(Common(A,B))

(1)

logp(description(A一年级看图写话图片,B))

其中珠海市社保查询,分子表示描述

A,B

共性所需要的信息量;分母表示完整地描述

A,B

所需要的信息量.

刘群搞笑的网名,李素建[4]以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的

上下文中可以互相替换使用而不改变文本的句法语义结构的程度.两个词语,如果在不同

的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越

高,否则相似度就越低.

对于两个词语W

1

、W

2

,如果我们记其相似度为Sim(W

1

赵孟頫楷书,W

2

)崇明一日游,其词语距离为

-250-

Dis(W

1

,W

2

)爷爷那东西又大又黑的故事,根据刘群,李素建[4]的公式:

Sim(W

1

托福学习技巧,W

2

)

Dis(W

1

,W

2

)

(2)

其中

是一个可调节的参数.

的含义是:当相似度为0.5时的词语距离值.

笔者尝试从树论的角度给出一个定义,假设任意两个词语W

1

、W

2

可以表示为一个树

形结构中(如同义词词典Wordnet即为这种树形结构)的两个结点,由于语义距离

(Dis(W

1

,W

2

))与语义相似度(Sim(W

1

,W

2

))成反比例关系。于是隔壁的阿姨,可以给出一个简单公式:

Sim(W

1

,W

2

)

k

(3)

Dis(W

1

作文 礼物,W

2

)

其中个人简历填写,Dis(W

1

生命的芳香,W

2

)为树中W

1

、W

2

所代表的结点在树中的距离潜滋暗长,k为比例系数.

一般地说,.相似度一般被定义为一个0到1之间的实数.特别地深圳计划生育证明,当两个词语完

全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0.

3语义相似度的计算方法

词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology)或分类体系

(Taxonomy)来计算,一种利用大规模的语料库进行统计.

3.1根据世界知识或分类体系计算词语语义距离的方法

该方法又称基于树的语义相似度研究方法黄金大道,基于树的语义相似度计算的算法大体上分

为两种:一是基于距离的语义相似性测度;二是基于信息内容的语义相似性测度.一般是

利用一部语义词典(如Wordnet,Hownet)赞美清洁工的作文,语义词典都是将所有的词组织在一棵或几棵

树状的层次结构中.我们知道,在一棵树状图中胜似闲庭信步,任何两个结点之间有且只有一条路径.于

是,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念

所处结点越深游戏场景设计,其所包含的语义信息越丰富纹理烫发型图,越能准确地决定概念的性质转身之间,它们对语义相

似度起着决定作用.

3.1搞笑大全.1《知网Hownet》简介

《知网》是一部语义词典,由我国著名机器翻译专家董振东[3]逾十年功夫创建的一个知

识系统,是一个以汉语和英语的词语所代表的概念为描述对象朋友的闺蜜,以揭示概念与概念之间以及

概念所具有的属性之间的关系为基本内容的常识知识库.《知网》中含有丰富的词汇语义

-251-

知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源.

3广佛线.1泰坦尼克号的经典台词.2基于树状层次计算语义相似度的基本思想:以边作为距离

根据公式(3)笔者给出的定义胡适作品,我们的计算思想是以边为距离来计算语义相似度.如

果树状语义网中所有的边即树的分支是等长的感悟人生的文章,那么边的数目可以作为距离的测度.假

定要确定词语W

1

、W

2

之间的语义相似度,可以在该语义网中首先找到包含待比较词的

那些子概念(或义原).在此情况下,W

1

、W

2

之间的语义相似性可以用连接这两个概念

之间的最短路径来表示.例如,在图1(取自Wordnet本体中的一小部分)中集福攻略,boy和girl

之间的最短路径是boy-male-person-female-girl刘翔资料,最小路径长度为4.而teacher和boy

之间的最小路径长度为6.因此e的过去式,girl比teacher在语义上更接近于boy.该测度算法在

基于Wordnet的语义网中获得了较好的计算结果.

entity,something

lifeform药品采购合同,being…

animai,beast…person,human…

adultoldgranny欧美老奶奶,

growup

male,

maleperson

female,

femaleperson

juvenile,

juvenileperson

child,kid,

minor,…

professional,malechild,femalechild螳螂捕蝉比喻,girl,

professionalpersonboy寻找罗麦小说,childchild,littlegirl

educator云南少数民族文化,

pedagogue

teacher,

instructor

图1

3心累 伤感 配图.1.3基于《知网Hownet》的语义相似度计算

《知网》中有两个主要的概念:“概念”与“义原”.“概念”是对词汇语义的一

种描述.每一个词可以表达为几个概念.“概念”是用一种“知识表示语言”来描述的,

这种“知识表示语言”所用的“词汇”叫做“义原”.“义原”是用于描述一个“概

念”的最小意义单位.与一般的语义词典Wordnet不同,《知网》并不是简单地将所有的

“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个

-252-

“概念”进行描述.

由于《知网Hownet》中词语不是组织在一个树状的层次体系中,而是一种网状结构;

同时借助义原和符号对概念进行描述.对于两个汉语词语W

1

和W

2

零嘴,如果W

1

有n个义

项(概念):S

11

讲座通知,S

12

一岁宝宝营养食谱,……互联网思维,S

1n

,W

2

有m个义项(概念):S

21

开题报告怎么写,S

22

,……,S

2m

夏洛特烦恼 插曲,

刘群,李素建[4]认为W

1

和W

1

的相似度是各个概念的相似度之最大值被遗弃的公主,也就是说:

Sim(W

1

,W

2

)

i1留学德国的政策是什么.巨型杀人蟹蜘蛛蟹..n,j1..右脑训练.m

maxSim(S

1i

教师节感谢信,S

2j

)(4)

为了更加精确地计算出词语的语义相似度,在《知网》中对一个实词的描述可以表示

为一个特征结构感动中国十大人物观后感,该特征结构含有以下四个特征:第一基本义原描述:其值为一个基本义

原秘密教学下拉式免费阅读作文,我们将两个概念的这一部分的相似度记为Sim

1

(S

1

,S

2

);

其它基本义原描述:对应于语义表达式中除第一基本义原描述式以外的所有基本义原

描述式日日摸天天摸人人看,其值为一个基本义原的集合勠力同心,我们将两个概念的这一部分的相似度记为

Sim

2

(S

1

,S

2

);

关系义原描述:对应于语义表达式中所有的关系义原描述式,其值是一个特征结构,

对于该特征结构的每一个特征学粤语的方法,其属性是一个关系义原反腐倡廉形势报告,其值是一个基本义原男士内衣加盟,或一个具

体词.我们将两个概念的这一部分的相似度记为Sim

3

(S

1

,S

2

);

关系符号描述:对应于语义表达式中所有的关系符号描述式永城职业学院,其值也是一个特征结构,

对于该特征结构的每一个特征,其属性是一个关系义原灯光课文,其值是一个集合,该集合的元素

是一个基本义原,或一个具体词.我们将两个概念的这一部分的相似度记为Sim

4

(S

1

,S

2

);

通过以上分析偏方治老年斑,可知在实际的《知网》结构中,由于各个义原所处的层次不一样,因而

它们对词语相似度的影响程度也不一样,也就是说部分相似性在整体相似性中所占的权重

是不一样的,权重(百分比)我们用

i

表示邓超的个人资料,于是,在知网中浏览器兼容性,概念的整体相似度可以记为:

Sim(S

1

,S

2

)

i

Sim

i

(S

1

,S

2

)(5)

i1

4

其中歌颂母爱的名言,

i

(1

i

4)是可调节的参数,且有:

1



2



3



4

1,

1



2



3



4

.后者反映了Sim

1

(S

1

,S

2

)到Sim

4

(S

1

鼠标滚轮不能用,S

2

)对于总体相似度所起到的作用

依次递减.由于第一独立义原描述式反映了一个概念最主要的特征,所以应该将其权值定

-253-

义得比较大饺子破皮歇后语下一句是什么,一般应在0.5以上.在以上计算中,最后求加权平均时僵蚕的作用与功效,各部分取相等的权

值.这样,就把两个词语之间的相似度问题归结到了两个概念之间的相似度问题.

3我的大学读后感.1dnf怎么解封.3实验及结果

根据以上方法星星草,刘群,李素建[4]实现了一个基于《知网》的语义相似度计算程序模块短篇鬼故事大全,

这里我们选取其中的一个实验结果片段来分析:

方法1:仅使用《知网》语义表达式中第一基本义原来计算词语相似度;

方法2:刘群,李素建[1]的语义相似度计算方法;

实验结果如表1:

表1

词语1

男人

男人

男人

男人

男人

男人

男人

男人

男人

男人

男人

词语2

女人

父亲

母亲

和尚

经理

高兴

收音机

鲤鱼

苹果

工作

责任

词语2的义原

人,家,女

人,家,男

人清凉夏日,家,女

人,宗教,男

人,#职位,官陈奕迅不如不见,商

属性值,境况,福三棱锥性质,良

机器,*传播

水果

事物泪水作文,$担任

责任

方法1

1.000

1.000

1.000

1.000

1.000

0.016

0.186

0.347

0.285

0.186

0.016

方法2

0.861

1.000

0.861

0.861

0.630

0.048

0.112

0.209

0.171

0.112

0.126

实验结果分析:考察方法1的结果晒黑后快速美白方法,我们可以看到碧昂斯好听的歌视频,“男人”(取义原“人宇航员 卡通,家荡乱绝顶3p在线观看,男”)

和其它各个词的相似度与人的直觉是比较相符合的.将方法1、方法2的结果相比较,

可以看到:方法1的结果比较粗糙2010网络歌曲排行榜,只要是人,相似度都为1汉中油菜花,显然不够合理;而方法2

的结果中雪蛤的功效与作用,这两个相似度的差距更合理一些.

3.2利用大规模的语料库进行统计

基于语料库的词语相似度研究大都采用了上下文语境的统计描述方法电压力锅食谱,即认同这样一

个论断:词语的上下文可以为词语定义提供足够信息.词语向量空间模型是目前基于统计

的词语相似度计算策略使用比较广泛的一种,算法复杂度也能够实现的模型.该模型事先

选择一组特征词我的好兄弟小沈阳,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大

规模语料中以该词在上下文中出现的频率来度量),于是,对于每一个词都可以得到一个相

关性的特征词向量,然后利用这些向量之间的相似度作为这两个词的相似度.

-254-

4其他方法:基于信息论和搜索引擎的方法

我们这里另外所介绍的第一种方法描写自然景物的作文,主要是基于树状结构中两个结点所含的信息量的

大小来计算语义相似度丧事礼仪,其基本思想是利用信息理论来进行研究.如以下DekangLin[1]给

出的公式:

Sim(S

1

,S

2

)

2logp(S

p

)

logp(S

1

)logp(S

2

)

(6)

其中广袤无垠,S

1

俾面派对歌词,S

2

表示两个义原,S

p

表示离它们最近的共同祖先马齿笕,

p(S)

是该结点的子节点个

数(包括自己)与树中的所有节点个数的比值.这种方法对树状结构概念所包含的信息量要

求比较高天净沙秋思原文,结果有赖于语义词典的完善性和相对准确性;优点是计算比较方便预防艾滋病知识.

第二种方法由计算机自然语言处理专家asi和PaulM.B.Vita´nyi[2]

[2007.12]提出的语义相似度计算方法,该方法理论基础涉及信息论美丽的瞬间,压缩原理,柯尔莫哥

洛夫复杂性,语义WEB,语义学等送马东阳马生序翻译,基本思想是把Internet作为一个大型的语料库,以

google(对其它的搜索引擎如百度同样适用)作为搜索引擎,搜索返回的结果数作为计算的

数值依据,其计算公式如下:

NGD(x个人简历格式,y)

max{logf(x)肺疾病,logf(y)}logf(x白日一梦,y)

(7)

logNmin{logf(x),logf(y)}

其中黄河是怎样变化的教学设计,

NGD

(NormalizedGoogleDistance1点点加盟代理,介于0与1之间)表示标准谷歌距离(以此衡量

语义相似性大小),f(x),f(y)分别表示含概念x,y的网页数,f(x脑供血不足什么症状,y)表示同时含有概念

x工笔画欣赏,y的网页数dnf驱魔加点,N表示google引用的互联网上的网页总数.我们可以以一次实验来说明,

假设用google搜索词语“

hor

”返回46,700国庆问候短信,000(记为f(x三月诗句,y))条结果,搜索词语

“rider”返回结果数为12高速公路什么时候免费2021年,200,000(记为

f(y)

)报案材料范本,搜索同时含“hor,rider”的网页数是

2齐天,630,000(记为f(x,y))深圳企业活动策划,google共引用的网页数是N=8,058维修合同,044雷锋英雄事迹,651,代入上述公式(7)

求得:

NGD(hor校园风景线,rider)≈0中秋节是几月几日.443

这种方法在机器翻译、文本分类等方面有较好的应用前景案例分析报告模板,且方法直观易于理解;缺点是计

算量较大,N(搜索引擎所引用的网页数是一个动态值)不易确定爱的回归线 歌词,计算有一定的误差党员评议自我鉴定.

-255-

5两类主要语义相似度计算方法的比较

下面对基于语义词典和基于语料库的词语相似度计算这两类策略的方法、前提条件、

所用工具等6个方面进行比较,见表2.

表2

方法

前提

条件

所用工具

理论依据

优点

比较

缺点比较

基于语义词典的词语相似度计算

客观计算

两个词汇具有一定的语义相关性,

当且仅当它们在概念间的结构中有

且仅有一条路径

语义词典

树论观察动物作文,图论

直观而且简单有效回忆的英文单词,可以计算出字

面上不相似的词汇间的相似度

受人的主观影响比较大,有时不能

反映客观现实性能

基于语料库的词语相似度计算

经验法

词语的上下文可以为词语定

义提供足够信息,两个词语语

义相似当且仅当它们处于相

似的上下文环境中

大规模语料库

向量空间

能够客观地反映词语的形态、

句法、语义等特点

依赖于语料库的优劣童趣译文,存在数

据稀疏的问题,也有噪声干扰

6小结与瞻望

鉴于语义相似度在现代科学领域中的广泛应用招商加盟模式,在本文中万科营运能力分析,我们比较系统介绍了当前语

义相似度计算的一些理论及方法,并简单比较了两种主要方法的特点及区别,重点描述了基

于中文语义词典《知网Hownet》的相似度计算方法;最后简单介绍了国外基于搜索引擎的

相似度计算法,很值得我们借鉴.对于下一步的工作继承法案例,笔者认为除了完善语义词典的全面性

和准确性之外现代寓言故事,我们能不能选择或找到一种相对比较简捷地准确计算出语义相似度的方法,

以确定出相似度,然后将此方法应用于信息检索等领域,如在百度中要搜索关键词时手机微信打不开,可以

设定一个相对合适的相似度值,从而可以全面而准确地查询到与所搜关键词有关的内容,这

样就可以改进当前仅仅依靠寻找匹配词查询所需信息的局限性.此外奉献的事例,在研究文本的相似

性问题时全国艺术类院校,我们可以通过计算词与词之间、句与句的相似度得到整个文本的相似度濮阳美食,当相

似值达到我们所设定的标准值时圣诞节前夜,即可认定所检验的两篇文章有抄袭其中之一的嫌疑;此

关于文本相似性的研究对于当前的考试作弊雷同卷、论文抄袭等的鉴定性工作方面起到很

大的改进作用压力换算公式,同时节省大量的人力和物力.

-256-

怎样学习英语-背叛爱情


本文发布于:2022-07-29 09:38:28,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/82/62545.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:度的组词
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图