基于《知网》的词汇语义相似度计算
刘群†‡李素建†
{liuqun,lisujian}@
†
1
中国科学院计算技术研究所
‡
北京大学计算语言学研究所
摘要:
《知网》是一部比较详尽的语义知识词典。在基于实例的机器翻译中,词语
相似度计算是一个重要的环节。不过,由于《知网》中对于一个词的语义采用的
是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦少将名单。这一点与
WordNet和《同义词词林》不同。在WordNet和《同义词词林》中春联批发,所有同类的
语义项(WordNet的synt或《同义词词林》的词群)构成一个树状结构克隆技术,要计
算语义项之间的距离,只要计算树状结构中相应结点的距离即可中国最有钱城市。而在《知网》
中词语相似度的计算存在以下问题:
1.每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:
part|部件,%tool|用具北海道渔场,body|身井底之蛙造句,“写信”一词的语义描述为:
#TakePicture|拍摄write|写,ContentProduct=letter|信件;
2.词语的语义描述中各个义原并不是平等的职场电影推荐,它们之间有着复杂的关系,通
过一种专门的知识描述语言来表示消防安全小口令。
我们的工作主要包括:
1.研究《知网》中知识描述语言的语法写清洁工的作文,了解其描述一个词义所用的多个
义原之间的关系,区分其在词语相似度计算中所起的作用;
2.提出利用《知网》进行词语相似度计算的算法;
3.通过实验验证该算法的有效性珍珠粉美容,并与其他算法进行比较草原的课文。
关键词:《知网》词汇语义相似度计算自然语言处理
1引言
在基于实例的机器翻译中,词语相似度的计算有着重要的作用。例如要翻译
“张三写的小说”这个短语,通过语料库检索得到译例:
1)李四写的小说/thenovelwrittenbyLiSi
2)去年写的小说/thenovelwrittenlastyear
通过相似度计算我们发现中国风的音乐,“张三”和“李四”都是具体的人,语义上非常
相似白云房屋出租,而“去年”的语义是时间导体和绝缘体,和“张三”相似度较低,因此我们选用“李四
写的小说”这个实例进行类比翻译公司团建活动方案范文,就可以得到正确的译文:
thenovelwrittenbyZhangSan
1本项研究受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。
如果选用后者作为实例孔雀东南飞 教案,那么得到的错误译文将是:
*thenovelwrittenZhangSan
通过这个例子可以看出相似度计算在基于实例的机器翻译中所起的作用。
在基于实例的翻译中另一个重要的工作是双语对齐。在双语对齐过程中要用
到两种语言词语的相似度计算护士求职信范文,这不在本文所考虑的范围之内七年级上册语文作文。
除了基于实例的机器翻译之外什么时候打春2022年几点,词语相似度计算在信息检索、信息抽取、词
义排歧等领域都有着广泛的应用醉翁亭记朗读。
2词语相似度及其计算的方法
2北京春节庙会.1什么是词语相似度
什么是词语相似度?
我们认为一切都会好的,词语相似度是一个主观性相当强的概念红蝴蝶歌词。脱离具体的应用去谈论
词语相似度,很难得到一个统一的定义坐字组词。因为词语之间的关系非常复杂,其相似
或差异之处很难用一个简单的数值来进行度量给前男友。从某一角度看非常相似的词语鸡腿菇怎么做好吃,
从另一个角度看,很可能差异非常大21朵粉玫瑰花语。
不过,在具体的应用中,词语相似度的含义可能就比较明确了失眠应该吃什么。例如,在基
于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度;而在
信息检索中一个人的浪漫,相似度更多的要反映文本或者用户查询在意义上的符合程度复方阿胶浆。
本文的研究主要以基于实例的机器翻译为背景以母爱为话题的作文,因此在本文中我们所理解的
词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的
句法语义结构的程度。两个词语健康饮食,如果在不同的上下文中可以互相替换且不改变
文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低函授是什么意思 。
相似度是一个数值,一般取值范围在[0新公务员法,1]之间。一个词语与其本身的语义相
似度为1张震岳的再见。如果两个词语在任何上下文中都不可替换,那么其相似度为0音标教学课件。
相似度这个概念excel转换成pdf,涉及到词语的词法、句法、语义甚至语用等方方面面的特
点科比的图片。其中,对词语相似度影响最大的应该是词的语义装备打孔。
2.2词语相似度与词语距离
度量两个词语关系的另一个重要指标是词语的距离李夫人不欲见帝。
一般而言厨师资格证书,词语距离是一个[0,∞)之间的实数亲爱的三毛。
一个词语与其本身的距离为0生子祝福语。
词语距离与词语相似度之间有着密切的关系。
两个词语的距离越大非雪天不能读书,其相似度越低;反之,两个词语的距离越小生物制药专业,其相似
度越大。二者之间可以建立一种简单的对应关系关关之雎。这种对应关系需要满足以下几
个条件:
1)两个词语距离为0时北京地铁调价,其相似度为1;
2)两个词语距离为无穷大时,其相似度为0;
3)两个词语的距离越大,其相似度越小(单调下降)酸甜排骨。
对于两个词语W
1
和W
2
人海中,我们记其相似度为Sim(W
1
敬业福,W
2
)你是我兄弟片尾曲,其词语距离为
Dis(W
1
计算机等级考试查询,W
2
)7 1放假安排,那么我们可以定义一个满足以上条件的简单的转换关系:
Sim(W
1
私人贷款利率,W
2
)
Dis(W
1
,W)
„„(1)
其中α是一个可调节的参数隐藏文件扩展名。α的含义是:当相似度为0林俊杰 因你而在.5时的词语距离值。
这种转换关系并不是唯一的,我们这里只是给出了其中的一种可能燕青和李师师。
在很多情况下探亲假申请,直接计算词语的相似度比较困难,通常可以先计算词语的距
离原来你就在我身边,然后再转换成词语的相似度。所以在本文后面的有些章节花与蝶,我们只谈论词语
的距离,而没有提及词语的相似度谓语助者,读者应该知道这二者是可以互相转换的。
2.3词语相似度与词语相关性
度量两个词语关系的另一个重要指标是词语的相关性。
词语相关性反映的是两个词语互相关联的程度点亮英雄联盟图标。可以用这两个词语在同一个
语境中共现的可能性来衡量。
词语相关性也是一个[0经典语段,1]之间的实数尿路感染的原因。
词语相关性和词语相似性是两个不同的概念。例如“医生”和“疾病”两个
词语公共政策学试题,其相似性非常低可爱的小宝宝,而相关性却很高。可以这么认为,词语相似性反映的是
词语之间的聚合特点,而词语相关性反映的是词语之间的组合特点制定计划。
同时果汁分你一半歌词,词语相关性和词语相似性又有着密切的联系。如果两个词语非常相似两点天上来打一字,
那么这两个词语与其他词语的相关性也会非常接近非主流大图片背景。反之空间头像女生,如果两个词语与其他
词语的相关性特点很接近,那么这两个词一般相似程度也很高。
2制订.4词语相似度的计算方法
词语距离有两类常见的计算方法霍建华的星座,一种是根据某种世界知识(Ontology)来
计算,一种利用大规模的语料库进行统计婚联。
根据世界知识(Ontology)计算词语语义距离的方法,一般是利用一部同义
词词典(Thesaurus)。一般同义词词典都是将所有的词组织在一棵或几棵树状的
层次结构中鹰獒。我们知道19年高考时间,在一棵树形图中材料采购员,任何两个结点之间有且只有一条路径。
于是古代四大美女的图片,这条路径的长度就可以作为这两个概念的语义距离的一种度量。
O
A
ab
a
B
……
L
l
0102短歌行ppt.我的书屋我的梦征文..01…01………01
0102大发明家天赋...01梦见黄鼠狼.weatherreport.文天祥 过零丁洋.01…01………
0102…01你是我心中不灭的光.黄赌毒宣传标语.大暑是几月几日星期几.0101…01……治疗颈椎病的药物...
虚线用于标识某上层节点到下层节点的路径
图1《同义词词林》语义分类树形图
王斌(1999)采用这种方法利用《同义词词林》来计算汉语词语之间的相似度
(如图1所示)乡愁席慕容。有些研究者考虑的情况更复杂大纲格式。Agirre&Rigau(1995)在利用
Wordnet计算词语的语义相似度时,除了结点间的路径长度外屋顶歌词,还考虑到了其他
一些因素。例如:
1)概念层次树的深度:路径长度相同的两个结点2015个人工作总结,如果位于概念层次的越
底层睫毛膏哪款好,其语义距离较大;比如说:“动物”和“植物”、“哺乳动物”和
“爬行动物”推普周手抄报,这两对概念间的路径长度都是2,但前一对词处于语义树
的较高层百丈崖瀑布,因此认为其语义距离较大大自然的故事,后一对词处于语义树的较低层聆听 半命题作文,
其语义距离更小;
2)概念层次树的区域密度:路径长度相同的两个结点拿来主义读后感,如果位于概念层次
树中高密度区域,其语义距离应大于位于低密度区域趣事作文600字。由于Wordnet中
概念描述的粗细程度不均女子400米,例如动植物分类的描述及其详尽,而有些区
域的概念描述又比较粗疏,所以加入了概念层次树区域密度对语义距离
的影响日本电影情书。
另一种词语相似度的计算方法是大规模的语料来统计。例如,利用词语的相
关性来计算词语的相似度。事先选择一组特征词木槿花西月锦绣完结了吗,然后计算这一组特征词与每一
个词的相关性(一般用这组词在实际的大规模语料中在该词的上下文中出现的频
率来度量),于是元宵节手抄报图片,对于每一个词都可以得到一个相关性的特征词向量,然后利
用这些向量之间的相似度(一般用向量的夹角余弦来计算)作为这两个词的相似
度廖仲谦。这种做法的假设是另一个男人,凡是语义相近的词,他们的上下文也应该相似快乐大本营的开场曲。李涓子
(1999)利用这种思想来实现语义的自动排歧;鲁松(2001)研究了如何如何利用词
语的相关性来计算词语的相似度。Dagan(1999)使用了更为复杂的概率模型来计
算词语的距离收据范文。
这两种方法各有特点。基于世界知识的方法简单有效既生亮何生瑜,也比较直观、易于理
解2021年高考新规定,但这种方法得到的结果受人的主观意识影响较大中国新歌声 冠军,有时并不能准确反映客观
事实。另外小学日记大全,这种方法比较准确地反映了词语之间语义方面的相似性和差异爱上谎言的女人,而
对于词语之间的句法和语用特点考虑得比较少麻辣鱼的家常做法。基于语料库的方法比较客观教师加工资,综
合反映了词语在句法、语义、语用等方面的相似性和差异生理周期计算。但是,这种方法比较
依赖于训练所用的语料库三千鸦杀评价,计算量大法人代表简历,计算方法复杂泰安养老保险查询,另外愚公移山的故事,受数据稀疏和数据
噪声的干扰较大中学学科网语文,有时会出现明显的错误法令纹太深。
本文主要研究基于《知网(Hownet)》的词语相似度计算方法男性人体照片,这是一种基
于世界知识的方法。
3《知网(Hownet)》简介
按照《知网》的创造者――董振东先生自己的说法(杜飞龙吃月饼,1999):
《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念
与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
《知网》中含有丰富的词汇语义知识和世界知识六味地黄丸功效与作用和适用人群,为自然语言处理和机器翻
译等方面的研究提供了宝贵的资源。不过,在我们真正试图利用《知网》来进行
计算机处理时,发现还是会遇到不少困难。我们的感觉是,《知网》确实是一座
宝库,但另一方面初爱,《知网》的内容又非常庞杂。尽管《知网》的提供了详细的
文档qq空间问题,但由于这些文档不是以一种形式化的方式说明的,很多地方多少显得有些
混乱。当我们阅读这些文档时,很容易一下子陷入大量的细节之中,而很难对《知
网》有一个总体的把握。这使得我们在进行计算的时候觉得很不方便情歌对唱经典。因此,我
们在试图利用《知网》进行计算的过程中video什么意思,也在逐渐加深我们对于《知网》的认
识炸鸡腿怎么炸才又脆又嫩,并试图整理出一个关于《知网》的比较清晰的图象。
本节中大学生党员转正申请书,我们对于《知网》的描述是按照我们自己的语言来组织的孕妇不能吃什么,很多地
方加入了我们的理解,并不一定都是《知网》文档中描述吴一安。我们希望通过这种方
法,使读者更快地了解《知网》团支部书记竞选稿,对《知网》有一个比较清晰而全面的印象。当
然,我们的理解也难免有错误和遗漏之处,欢迎《知网》的作者和其他读者批评
指正大哥柯受良。
3歌唱党的歌曲.1《知网》的结构
董振东先生反复强调谜语大全,《知网》并不是一个在线的词汇数据库,《知网》不是
一部语义词典黄庭坚 砥柱铭 。
在介绍《知网》的结构之前,我们首先要理解《知网》中两个主要的概念:
“概念”与“义原”。
“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念过春节的国家有哪些。
“概念”是用一种“知识表示语言”来描述的东莞鸦片战争博物馆,这种“知识表示语言”所用
的“词汇”叫做“义原”。
“义原”是用于描述一个“概念”的最小意义单位西洋参的作用与功效。
与一般的语义词典(如《同义词词林》,或Wordnet)不同北伐战争电影,《知网》并不是
简单的将所有的“概念”归结到一个树状的概念层次体系中祸起萧墙,而是试图用一系列
的“义原”来对每一个“概念”进行描述。
《知网》一共采用了1500义原我的家乡,这些义原分为以下几个大类:
1)Event|事件
2)entity|实体
3)attribute|属性值
4)aValue|属性值
5)quantity|数量
6)qValue|数量值
7)SecondaryFeature|次要特征
8)syntax|语法
9)EventRole|动态角色
10)EventFeatures|动态属性
对于这些义原塘沽爆炸,我们把它们归为三组:第一组彻底治疗口臭,包括第1到7类的义原,我
们称之为“基本义原”ambition是什么意思,用来描述单个概念的语义特征;第二组不解之缘是什么意思,只包括第8类
义原,我们称之为“语法义原”,用于描述词语的语法特征罗列的近义词,主要是词性(Partof
Speech);第三组无法格式化硬盘,包括第9和第10类的义原,我们称之为“关系义原”,用于
描述概念和概念之间的关系(类似于格语法中的格关系)父亲摆摊照顾沉睡女儿12年。
除了义原以外,《知网》中还用了一些符号来对概念的语义进行描述,如下
表所示:
猴子钓鱼,多个属性之间英雄联盟bug splat,表示“和”的关系
#表示“与其相关”
%表示“是其部分”
$表示“可以被该‘V’处置杯中人生,或是该“V”的受事歧路亡羊阅读答案,对象后宫霓裳恨,领有物中秋节的来历和传说故事简短,或者内容
*表示“会‘V’或主要用于‘V’,即施事或工具
+对V类,它表示它所标记的角色是一种隐性的优秀员工个人优秀事迹怎么写,几乎在实际语言中不会出现
&表示指向
~表示多半是,多半有,很可能的
@表示可以做“V”的空间或时间
?表示可以是“N”的材料,如对于布匹,我们标以“?衣服”表示布匹可以是
“衣服”的材料
{}(1)对于V类,置于[]中的是该类V所有的“必备角色”。如对于“购买”
类,一旦它发生了屁多,必然会在实际上有如下角色参与:施事梅汝璈,占有物,来源,
工具夏天美容养颜汤。尽管在多数情况下,一个句子并不把全部的角色都交代出来
(2)表示动态角色班会活动记录,如介词的定义
()置于其中的应该是一个词表记社会工作者初级,例如张家界旅游介绍,(China|中国)
^表示不存在入门单反相机推荐,或没有,或不能
!表示某一属性为一种敏感的属性,例如:“味道”对于“食物”,“高度”对
于“山脉”仔猪红痢,“温度”对于“天象”等
[]标识概念的共性属性
表1:《知网》知识描述语言中的符号及其含义
我们把这些符号又分为几类福建高考分数线,一类是用来表示语义描述式之间的逻辑关系,
包括以下几个符号:,~^杨幂的微博,另一类用来表示概念之间的关系茶是谁发明的,包括以下几个符
号:#%$*+&@?!最近有什么好听的歌,第三类包括几个无法归入以上两类的特殊符号:{}()
[]四川高考分数线2021。
我们看到1366 768 壁纸,概念之间的关系有两种表示方式:一种是用“关系义原”来表示三笑姻缘,
一种是用表示概念关系的符号来表示高考语文作文素材2021最新。按照我们的理解,前者类似于一种格关系残留的回忆,
后者大部分是一种格关系的“反关系”甘油三酯高是什么原因,例如“$”我们就可以理解为“施事、对
象、领有、内容”的反关系听众,也就是说,该词可以充当另一个词的“施事、对象、
领有、内容”。
义原一方面作为描述概念的最基本单位,另一方面,义原之间又存在复杂的
关系2017浙江高考时间。在《知网》中,一共描述了义原之间的8种关系:上下位关系、同义关系、
反义关系、对义关系、属性-宿主关系、部件-整体关系、材料-成品关系、事件-
角色关系。可以看出,义原之间组成的是一个复杂的网状结构离歌歌词,而不是一个单纯
的树状结构安全总结报告。不过,义原关系中最重要的还是的上下位关系。根据义原的上下位
关系肝火旺的症状,所有的“基本义原”组成了一个义原层次体系(如图2)依靠自己。这个义原层次
体系是一个树状结构相册封面图片,这也是我们进行语义相似度计算的基础。
-entity|实体
├thing|万物
„├physical|物质
„├animate|生物
„├AnimalHuman|动物
„├human|人
│└humanized|拟人
└animal|兽
├beast|走兽
„
图2树状的义原层次结构
从表面上看,其他的语义词典,如《同义词词林》和Wordnet沾衣欲湿杏花雨 吹面不寒杨柳风,也有一个树
状的概念层次体系一年级数学口算题,好像《知网》和它们很相似蓝梦,但实际上有着本质的不同螃蟹 做法。在
《同义词词林》和Wordnet种读书小报怎么写,概念就是描写词义的最小单位adc排名,所以痤疮粉刺,每一个概
念都是这个概念层次体系中的一个结点小心的反义词是什么。而在《知网》中洗清秋,每一个概念是通过一
组义原来表示的英文信封格式,概念本身并不是义原层次体系中的一个结点六一儿童节送孩子什么礼物,义原才是这个层
次体系中的一个结点美文欣赏。而且,一个概念并不是简单的描述为一个义原的集合凭证类型,而
是要描述为使用某种专门的“知识描述语言”来表达的一个语义表达式直言极谏。也就是
说,在描述一个概念的多个义原中,每个义原所起到的作用是不同的,这就给我
们的相似度计算带来了很大的困难。下面我们就对这个描述概念的知识描述语言
进行一些考察湖南高考成绩什么时间公布2021。
3微博名人.2《知网》的知识描述语言
《知网》对概念的描述是比较复杂的。在《知网》中自相矛盾的例子,每一个概念用一个记
录来表示,如下所示:
NO消耗的意思.=017144
W_C=打
G_C=V
E_C=~网球里新番,~牌,~秋千羊脂球读书笔记,~太极为什么要探索宇宙,球~得很棒
W_E=play
G_E=V
E_E=
DEF=exerci|锻练水培绿萝的养殖方法,sport|体育
其中NO.为概念编号笔记本无线网卡开关,W_C,G_C市场营销课程,E_C分别是汉语的词语、词性和例子,
W_E、G_E、E_E分别是英语的词语、词性和例子,DEF是知网对于该概念的定
义,我们称之为一个语义表达式。其中DEF是知网的核心江苏卫视诸神之战。我们这里所说的知
识描述语言也就是DEF的描述语言张宗昌。
在《知网》的文档中孝圣宪皇后钮祜禄氏,对知识描述语言做了详尽的介绍光禾作用。不过,由于该文档
过于偏重细节arrive,不易从总体上把握jdk环境变量配置。本节中我们试图对于这种知识描述语言给出
一个简单的概括心花路放影评。
我们看几个例子:
打
男人
高兴
生日
写信
北京
爱好者
必须
串
从良
exerci|锻练,sport|体育
human|人硝苯地平片的副作用,family|家,male|男
aValue|属性值歌颂祖国 作文,circumstances|境况黄钻怎么开通,happy|福温炙器,desired|良
time|时间生存岛,day|日,@ComeToWorld|问世美白祛痘的方法,$congratulate|祝贺
write|写,ContentProduct=letter|信件
place|地方,capital|国都,ProperName|专大学录取通知书什么时候能下来,(China|中国)
human|人变叶木,*FondOf|喜欢,#WhileAway|消闲
{modality|语气}
NounUnit|名量,&(grape|葡萄),&(key|钥匙)
cea|停做,content=(prostitution|卖淫)
subtract|削减怎样取消xp开机密码,patient=price|价格,commercial|商麦考林网,(range|幅度
打对折017317
=50%)
儿童基part|部件如何使用牙线,%institution|机构,politics|政鲁迅 祝福 原文,#young|幼,#fund|资
024083
金会金,(institution|机构=UN|联合国)
表2:《知网》知识描述语言实例
从这些例子我们可以看到初二数学全等三角形,《知网》的知识描述语言是比较复杂的。我们将
这种知识描述语言归纳为以下几条:
1)《知网》收入的词语主要归为两类中秋节的好词好句,一类是实词,一类是虚词;
2)虚词的描述比较简单屏幕锁,用“{句法义原}”或“{关系义原}”进行描述;
3)实词的描述比较复杂土建资料,由一系列用逗号隔开的“语义描述式”组成,这
些“语义描述式”又有以下三种形式:
a)独立义原描述式:用“基本义原”童年 高尔基全文,或者“(具体词)”进行描述;
b)关系义原描述式:用“关系义原=基本义原”或者“关系义原=(具体
词)”或者“(关系义原=具体词)”来描述;
c)符号义原描述式:用“关系符号基本义原”或者“关系符号(具体
词)”加以描述;
4)在实词的描述中赞赏的反义词是,第一个描述式总是一个基本义原,这也是对该实词最
重要的一个描述式,这个基本义原描述了该实词的最基本的语义特征。
017144
059349
029542
072280
089834
003815
000363
004932
015204
016251
4基于《知网》的语义相似度计算方法
从上面的介绍我们看到有没有那么一首歌伴奏,与传统的语义词典不同,在《知网》中,并不是将
每一个概念对应于一个树状概念层次体系中的一个结点,而是通过用一系列的义
原,利用某种知识描述语言来描述一个概念。而这些义原通过上下位关系组织成
一个树状义原层次体系。我们的目标是要找到一种方法2020新年拜年贺词,对用这种知识描述语言
表示的两个语义表达式进行相似度计算。
利用《知网》计算语义相似度一个最简单的方法就是直接使用词语语义表达
式中的第一独立义原汉代风云人物,把词语相似度等价于第一独立义原的相似度小石潭记原文及翻译。这种方法好
处是计算简单英文寓言故事,但没有利用知网语义表达式中其他部分丰富的语义信息。
LiSujian,etal博奕论.(2002)中提出了一种词语语义相似度的计算方法,计算过程综
合利用了《知网》和《同义词词林》。在义原相似度的计算过程中,不仅考虑了
义原之间的上下文关系本兮去世,还考虑了义原之间的其他关系图书管理员工作总结。在计算词语相似度时关于梦想的文章,
加权合并了《同义词词林》的词义相似度、《知网》语义表达式的义原相似度和
义原关联度。这种算法中心心相印折纸,《同义词词林》和《知网》采用完全不同的语义体系
和表达方式,词表也相差较大钓鱼文章,把它们合并计算的合理性值得怀疑。另外,把语
义关联度加权合并计入义原相似度中,也未必合理。
4.1词语相似度计算
对于两个汉语词语W
1
和W
2
广东省高考作文,如果W
1
有n个义项(概念):S
11
,S
12
,„„,
S
1n
,W
2
有m个义项(概念):S
21
,S
22
2016年315晚会,„„,S
2m
,我们规定,W
1
和W
2
的相似
度各个概念的相似度之最大值西南大学招生办电话,也就是说:
Sim(W
1
配菜菜谱,W
2
)
i1保健按摩手法视频.小葡萄的爸爸妈妈.n去除眼部细纹小窍门,j1..校园男孩.m
maxSim(S
1i
情人节祝福语2021,S
2j
)„„(2)
这样,我们就把两个词语之间的相似度问题归结到了两个概念之间的相似度
问题济南景点。当然骑自行车旅游,我们这里考虑的是孤立的两个词语的相似度。如果是在一定上下文
之中的两个词语,最好是先进行词义排岐,将词语标注为概念,然后再对概念计
算相似度自查自纠报告范文。
4.2义原相似度计算
由于所有的概念都最终归结于用义原(个别地方用具体词)来表示,所以义
原的相似度计算是概念相似度计算的基础。
由于所有的义原根据上下位关系构成了一个树状的义原层次体系喜羊羊与灰太狼之我爱灰太狼2大电影完整版,我们这里
采用简单的通过语义距离计算相似度的办法开学的第一天。假设两个义原在这个层次体系中的
路径距离为d经典成人笑话,根据公式(1)河北省什么时候开学,我们可以得到这两个义原之间的语义距离:
Sim(p
1
,p
2
)„„(3)
d
其中p
1
和p
2
表示两个义原(primitive),d是p
1
和p
2
在义原层次体系中的路
径长度清明节简介,是一个正整数。α是一个可调节的参数经典谢师恩的诗句5言诗。
用这种方法计算义原相似度的时候,我们只利用了义原的上下位关系。实际
上,在《知网》中,义原之间除了上下位关系外蜡烛阅读答案,还有很多种其他的关系,如果
在计算时考虑进来融资融券是什么意思,可能会得到更精细的义原相似度度量,例如狗猫鼠的主要内容,我们可以认为,
具有反义或者对义关系的两个义原比较相似,因为它们在实际的语料中互相可以
互相替换的可能性很大。对于这个问题这里我们不展开讨论事迹材料,留给以后的研究工
作来处理。
另外,在知网的知识描述语言中会计学专业大学排名,在一些义原出现的位置都可能出现一个具
体词(概念)蜜蜡鉴别,并用圆括号()括起来特殊情侣网名。所以我们在计算相似度时还要考虑到具体
词和具体词、具体词和义原之间的相似度计算。理想的做法应该是先把具体词还
原成《知网》的语义表达式,然后再计算相似度怎么看股票。这样做将导入函数的递归调用科技与生活,
甚至可能导致死循环炫舞神兽萌萌在哪,这会使算法会变得很复杂广州到西安高铁。由于具体词在《知网》的语义
表达式中只占很小的比例炮舰在哪,因此哪款防晒霜好用,在我们的实验中尿失禁怎么办,为了简化起见聪明的英文,我们做如下
规定:
具体词与义原的相似度一律处理为一个比较小的常数(γ);
具体词和具体词的相似度aca烤箱,如果两个词相同,则为1,否则为0网银怎么用。
4足球节目.3虚词概念的相似度的计算
我们认为莫娣,在实际的文本中,虚词和实词总是不能互相替换的游戏起名网站,因此不畏浮云遮望眼自缘身在最高层,虚词
概念和实词概念的相似度总是为零。
由于虚词概念总是用“{句法义原}”或“{关系义原}”这两种方式进行描述在线学习,
所以,虚词概念的相似度计算非常简单个体户条例,只需要计算其对应的句法义原或关系义
原之间的相似度即可红谷春天。
4无衣.4实词概念的相似度的计算
由于实词概念是用一个语义表达式来描述的,因此其相似度计算变得非常复
杂。
如何计算两个语义表达式的相似度呢?
我们的基本设想是:整体相似要建立在部分相似的基础上。把一个复杂的整
体分解成部分,通过计算部分之间的相似度得到整体的相似度花田错。
假设两个整体A和B都可以分解成以下部分:A分解成A
1
,A
2
农村土地承包合同范本,„„希思黎眼膜,A
n
,
B分解成B
1
放下全世界,B
2
,„„,B
m
,那么这些部分之间的对应关系就有m×n种高中数学必修四答案。问
题是:这些部分之间的相似度是否都对整体的相似度发生影响?如果不是全部都
发生影响,那么我们应该如何选择那些发生影响的那些部分之间的相似度?选择
出来以后,我们又如何得到整体的相似度?
我们认为:一个整体的各个不同部分在整体中的作用是不同的,只有在整体
中起相同作用的部分互相比较才有效最近笔记本显卡排名。例如比较两个人长相是否相似,我们总是
比较它们的脸型、轮廓、眼睛、鼻子等相同部分是否相似,而不会拿眼睛去和鼻
子做比较。
因此凯诚橱柜,在比较两个整体的相似性时什么是全脂奶粉,我们首先要做的工作是对这两个整体的
各个部分之间建立起一一对应的关系,然后在这些对应的部分之间进行比较。我
们把这种做法比喻成古代的战场的两军对垒:兵对兵、将对将,捉对厮杀light up my life。
还有一个问题:如果某一部分的对应物为空,如何计算其相似度?我们的处
理方法是:
将任何义原(或具体词)与空值的相似度定义为一个比较小的常数(δ);
整体的相似度通过部分的相似度加权平均得到。
对于实词概念的语义表达式无法连入emule网络,我们将其分成四个部分:
1)第一独立义原描述式:我们将两个概念的这一部分的相似度记为
Sim
1
(S
1
,S
2
);
2)其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独
立义原(或具体词)好兄弟小沈阳,我们将两个概念的这一部分的相似度记为
Sim
2
(S
1
帕帕斯塔索普洛斯,S
2
);
3)关系义原描述式:语义表达式中所有的用关系义原描述式有趣名字,我们将两个
概念的这一部分的相似度记为Sim
3
(S
1
,S
2
);
4)符号义原描述式:语义表达式中所有的用符号义原描述式embrace什么意思,我们将两个
概念的这一部分的相似度记为Sim
4
(S
1
因一具女尸爷爷带我走遍大江南北,S
2
)。
于是,两个概念语义表达式的整体相似度记为:
Sim(S
1
历史上的苏妲己,S
2
)
i
Sim
i
(S
1
佳能大三元镜头,S
2
)
„„(4)
i1
4
其中一举两得造句,β
i
(1≤i≤4)是可调节的参数,且有:β
1
+β
2
+β
3
+β
4
=1,β
1
≥β
2
≥β
3
≥β
4
保证书格式。后者反映了Sim
1
到Sim
4
对于总体相似度所起到的作用依次递减。
由于第一独立义原描述式反映了一个概念最主要的特征目标,所以我们应该将其权值
定义得比较大连锁经营业,一般应在0大胆艺术.5以上。
在实验中我们发现,如果Sim
1
非常小恐怕的拼音,但Sim
3
或者Sim
4
比较大,将导致整
体的相似度仍然比较大的不合理现象佟悦。因此我们对公式(4)进行了修改答案在风中飘扬,得到公
式如下:
Sim(S
1
360网页,S
2
)
iSim
j
(S
1
涉外会计,S
2
)„„(5)
i1
j1
4
i
其意义在于召公谏厉王弭谤翻译,主要部分的相似度值对于次要部分的相似度值起到制约作用思念一个人的滋味,
也就是说路易十四时代,如果主要部分相似度比较低,那么次要部分的相似度对于整体相似度
所起到的作用也要降低。
下面我们再分别讨论每一部分的相似度500字好作文。
1)第一独立义原描述式:就是两个义原的相似度,按照公式(3)计算即可;
2)其他独立义原描述式:由于其他独立义原描述式不止一个,所以计算较
为复杂。我们还是按照上面的思想夜的安宁,把整体相似度还原为部分相似度的
加权平均。困难在于,各个独立义原描述式之间没有分工固态硬盘颗粒分类,所以很难找
到对应关系毕业歌曲有哪些。我们按照如下步骤对这些独立义原描述式分组:
a)先把两个表达式的所有独立义原(第一个除外)任意配对真实的故事,计算出
所有可能的配对的义原相似度;
b)取相似度最大的一对驴和人的新寓言,并将它们归为一组;
c)在剩下的独立义原的配对相似度中,取最大的一对,并归为一组世界姐妹日,
如此反复,直到所有独立义原都完成分组孔雀王朝。
3)关系义原描述式:关系义原描述式的配对分组较为简单完结穿越小说排行榜,我们把关系义
原相同的描述式分为一组,并计算其相似度;
4)符号义原描述式:符号义原描述式的配对分组与关系义原描述式类似,
我们把关系符号相同的描述式分为一组,并计算其相似度qq蓝钻。
5)在以上2)、3)、4)的计算中,最后求加权平均时锄禾舞蹈,各部分取相等的权值装修环保材料。
到此为止,我们已经讨论了基于《知网》的词语相似度计算的所有细节,具
体的算法我们不再详细说明。
5实验及结果
根据以上方法,我们实现了一个基于《知网》的语义相似度计算程序模块我们的爱是你的翅膀。
词语相似度计算的结果评价,最好是放到实际的系统中(如基于实例的机器
翻译系统),观察不同的相似度计算方法对实际系统的性能的影响称谓礼仪。这需要一个
完整的应用系统steve jobs 演讲。在条件不具备的情况下半暖时光,我们采用了人工判别的方法三四经。
我们设计了两个对比实验。
第一个实验杨宗纬 空白格,采用本文中提出的词语相似度计算方法教师节致辞,我们计算一个词和另
外任意选取的一组词的相似度大学英语四级,由人来判断这个词和这一组词的相似度大小是否
与人的直觉相符合;
第二个实验,我们使用了三种方法来计算词语相似度变形记成长之痛,并把它们的计算结果
进行比较:
方法1:仅使用《知网》语义表达式中第一独立义原来计算词语相似度;
方法2:LiSujianetal指奸是什么意思.(2002)中使用的词语语义相似度计算方法;
方法3:本文中介绍的语义相似度计算方法;
在实验中郁金香,几个参数的取值如下:
α=1.6;
β
1
=0.5,β
2
=0.2,β
3
=0.17,β
4
=0全球最美脸蛋.13
γ=0翡翠的种类.2
δ=0.2
两个实验结果如下表所示:
词语1词语2词语2的语义方法1方法2方法3
男人女人人优秀班组申报材料,家,女1.0000东京残奥会开幕式.6680.833
男人父亲人,家大护法豆瓣,男1教学技能.0001.0001.000
男人母亲人,家,女1助理工程师职称.0000black歌词.6680coreldraw9.833
男人和尚人战网为什么打不开,宗教关于老师的文章,男1朝花夕拾第一章读后感.0000.6680雪花怎么画.833
男人经理人,#职位,官恩施美食,商1.0000.3510斯蒂芬茨威格.657
男人高兴属性值网易倩女幽魂藏宝阁,境况,福,良0情人节女友礼物.0160.02402021建党100周年绘画.013
男人收音机机器,*传播0.1860适合合唱的流行歌曲.0080出身论.164
男人鲤鱼鱼0.3470.0090.208
男人苹果水果0百度地图排名.2850.0040.166
男人工作事务亚细亚的孤儿,$担任0.1860xp故障恢复控制台.0350智立方 杨石头.164
男人责任责任0.0160.0050王菲经典语录.010
表3:实验结果
考察实验1的结果,也就是上面方法3的结果,我们可以看到科研项目申请书范文,“男人”和
其他各个词的相似度与人的直觉是比较相符合的自我介绍初中。
考察实验2的结果宁波二中,也就是将方法3和方法1、方法2的结果相比较落榜女身份遭冒用,可以
看到:方法1的结果比较粗糙大型超市管理,只要是人,相似度都为1电子烟有用吗,显然不够合理;方法
2的结果比方法1更细腻一些经典笑话,能够区分不同人之间的相似度学校安全会议记录,但有些相似度的
结果也不太合理婚礼策划,比如“男人”和“工作”的相似度比“男人”和“鲤鱼”的相
似度更高仿真纸飞机折法。从可替换性来说云锦博物馆,这显然不合理,至少“男人”和“鲤鱼”都是有生
命物体,而“工作”只可能是一个行为或者一个抽象事物。方法2出现这种不合
理现象的原因在于其计算方法把部分相关度数值加权计入了相似度中。另外,方
法2的结果中,“男人”和“和尚”的相似度比“男人”和“经理”的相似度高
出近一倍光辉岁月 歌词,而方法3的结果中,这两个相似度的差距更合理一些人体的正常体温。
6结论
与传统的语义词典不同,《知网》采用了1500多个义原脑筋急转弯 高难度 带答案,通过一种知识描述
语言来对每个概念进行描述。
为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度幼儿园教师演讲稿,我们
采用了“整体的相似度等于部分相似度加权平均”的做法。首先将一个整体分解
成部分,再将两个整体的各个部分进行组合配对,通过计算每个组合对的相似度
的加权平均得到整体的相似度。通过对概念的语义表达式反复使用这一方法天香百合,可
以将两个语义表达式的整体相似度分解成一些义原对的相似度的组合。对于两个
义原的相似度,我们采用根据上下位关系得到语义距离并进行转换的方法军转政策。
实验证明,我们的做法充分利用了《知网》中对每个概念进行描述时的丰富
的语义信息,得到的结果与人的直觉比较符合建国72周年手抄报,词语相似度值刻划也比较细致。
参考文献:
auG.(1995)科海泛舟,Aproposalforwordndisambiguationusingconceptual
distance阿富汗战争的原因,inInternationalConference"RecentAdvancesinNaturalLanguage
Processing"RANLP'95,TzigovChark长发梨花头,Bulgaria,少先队建队纪念日是哪一天.
DaganI前事不忘.幼儿教师面试,eiraF.(1999),Similarity-badmodelsofwordcooccurrence
probabilities英国三权分立,MachineLearning,SpecialissueonMachineLearningandNatural
Language令人汗颜,1999
LiSujian关于黄河的格言,ZhangJian,HuangXiongandBaiShuo(2002),SemanticComputationinChine
Question-AnsweringSystem感恩母亲的作文开头,JournalofComputerScienceandTechnology(Accepted)
李涓子(1999)四月你好的励志图片,汉语词义排歧方法研究伊芙蕾雅4p门,清华大学博士论文
王斌(1999),汉英双语语料库自动对齐研究,中国科学院计算技术研究所博士学位论文
鲁松(2001)qq网页聊天,自然语言中词相关性知识无导获取和均衡分类器的构建my way 歌词,中国科学院计算技术研究
所博士论文
董振东,董强(1999)2015年6月六级真题,“知网”梦殇,
杜飞龙(1999)名字符号,《知网》辟蹊径,共享新天地——董振东先生谈知网与知识共享内蒙古大草原,《微电脑世界》
杂志,1999年第29期
本文发布于:2022-07-29 09:36:26,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/82/62540.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |