摘 要:将大量中英文对照的专利文本作为平行语料库,提出一种自动抽取中英文词典的方法。先利用外部语义资源维基百科构建种子双语词典,再通过计算点互信息获得中英文词对的候补,并设置阈值筛选出用于补充种子词典的词对。实验结果表明:对英语文档进行单词的短语化有助于提高自动抽取结果的综合性能;另一方面,虽然通过句对齐方式可以提高自动抽取结果的正确率,但会对抽取结果的召回率产生负面影响。通过所述方法构建的专利双语词典能够在构建多语言版本的技术知识图谱中起到积极作用。
关键词:专利数据平行语料库跨语言检索互信息知识图谱
中图分类号: G306;TP391.1 文献标识码:A
0引言
随着大众创业、万众创新的“双创”新时代的到来,中国的知识产权已经进入强保护时代。尤其是在“一带一路”大背景下,如何在全球范围内保护好中国企业、研究机构的知识财产成为了当今科技发展的一大课题。实现全球范围检索专利,首要的、最基础的工作就是做好基于专利数据的中英文双语词典的构建工作。如,Yang等和孙茂松等分别提供了一种基于专利大数据抽取中日文专业术语和中英文专业术语双语词典的方法[1-2]。本文围绕利用专利平行语料库自动抽取中英文双语词典展开讨论,融入了基于维基百科的种子词典、英文文档的单词短语化、句对齐等资源和技术,并通过实验结果理解各个步骤对双语词典自动抽取结果的影响。
另一方面,张营、刘化冰等人揭示了通过专利语料构建技术专业词库的实际应用和现实意义。张营[3]指出通过知识抽取和聚类相关技术,使用专利文本信息构建知识元网络,为专利信息使用人员提供更精准、更智能的搜索和推荐功能,从而提高专利相关人员的查询效率和准确性。刘化冰[4]指出利用知识产权数据和企业相关属性构建企业知识产权知识库,采用知识图谱对这些知识库进行深度挖掘分析,形成不同维度(企业本身、行业、区域等)的知识图谱,从而分析各维度企业知识产权创新能力,最终可为创新主体提供技术创新和商业发展的切实依据和方向指引。同时,把专利信息和时间维
度相关联,可形成技术演进网络,通过可视化展示方式辅助研究人员梳理相关领域关联技术、发展脉络和演进趋势等深层次的信息。
本文将围绕利用专利平行语料库自动抽取中英文双语词典展开讨论,融入了基于维基百科的种子词典、英文文档的单词短语化、句对齐等资源和技术,通过实验结果理解各个步骤对双语词典自动抽取结果的影响,并讨论其解决知识图谱多语言化中的作用。
基金项目:本文受上海市2020年度“科技创新行动计划”软科学重点项目(项目名称:上海科创中心关键创新要素图谱,编号:20692100500)资助。
作者简介:胡寅骏(1986—),男,江苏苏州人,硕士,数据科学家,研究方向:自然语言处理,数据挖掘;殷玥(1990—),女,江苏扬州人,硕士,主要从事人工智能及知识图谱的产品设计;孙虎(1974—),男,江苏南京人,运营总监,主要从事人工智能及知识图谱的项目管理;王茜(1984—),女,河南南阳人,硕士,工程师,研究方向:科技管理。
本研究在借鉴了上述平行语料库获取方法的基础上,融入了中国专利申请PCT时提交的翻译文,通过中英文对应的专利对(以下简称“专利对”)构建了专利平行语料库。
1.2 基于维基百科的双语词典
维基百科是一个在互联网免费公开的、任何人都能够编辑的百科全书,因其包含丰富的语义资源且有专门的资源包下载途径,受到了自然语言处理、数据挖掘研究者的青睐,如Yu等和Tyers等中均提到了利用维基百科的多语言链接(Language Links)抽取双语词典[6-7]。
为了解外部语义资源对专利双语词典的自动抽取是否有帮助,本研究利用维基百科的条目(Article)、多语言链接、链接(Links)等数据资源,预先抽取了基于维基百科的种子双语词典。具体实现方法如下:–利用多语言链接1抽取中英文词对
–利用Link-en模板(Template)2抽取中英文词对
–利用链接(Links)抽取中英文词对
–利用维基百科的繁简处理3对词典中的非中文简体部分进行简体化
1.3 英文短语
英文尤其是英文的科技词汇当中存在着大量的短语,如“神经网络”的英文neuralnetwork,在处理过程当中不能将其当作两个词来处理。Word2Phra是解决该问题的方法之一[8],用于解决问题的关键如下:
(1)
其中,freq(w i w j)是单词w i和单词w j前后同时出取双语词典的准确性。
1.4 句对齐
未经过人工标注的专利平行语料库由于翻译方法问题(特别是在意译的情况下),存在部分无法逐句对应的情况。
本研究中,考虑到上述中英文无法逐句对应的数据会影响抽出的双语词典的准确性,参考了Utiyama 等[9]和Lu等[10]研究中的方法将中英文语料进行了自动句对齐操作。具体实施方法是,
–将中英文专利对的专利文档按照语句进行分割(Sentence Tokenize)
–计算每对中英文语句对的相似度SIM(Ci, Ei)
–计算对应专利中所有语句对相似度平均值A VSIM(C, E)
–将相似度大于平均值的语句对作为句对齐候补集S
–未进入候补的中英文语句分别合并算作一对加入S集
中英文语句对相似度的计算公式为,
(2)
其中,c和e分别为中文语句中的单词和英文语句中的单词(或短语),且
|C i|=专利对中文文档的第i个语句
|E i|=专利对英文文档的第i个语句
δ(c, e)=如果c能通过种子词典翻译成e为1,反之则为0
1 对应维基百科dump文件中的langlinks.sql。
2 Link-en模板是维基百科跨语言链接模板之一,维基百科在条目中经常以{{Link-en|中文页面名|对应的英文版页面名|
显示的名称}}的方式来引用该模板。
3 /wiki/Wikipedia:繁简处理。
是为了避免中文语句过长而在其英文对应版本中语句
被切分的情况,如以下摘要专利对的示例中,第一个中文语句实际上对应了英文的三个语句。
“一种电吹风机包括壳体、轴流风扇、电热体,壳体上有一进风口,其特殊之处在于:进风口与吸发头可拆卸联接,吸发头由嘴部、腹部构成,吸发头内有一防止头发回流的止回板;进风口与吸发头结合的部位有一过滤网。......”
“The utility model relates to an electric hair dryer, comprising a shell, an axial fan and an electrothermal device. The shell is provided with an inlet opening. The particularity of the electric hair dryer is in that the inlet opening and the hair-sucking head are connected in a detachable type. The hair-sucking head is compod of a mouth and a belly, and has a check plate for preventing the hair to inver. The combining site of the inlet opening and the hair-sucking head has a ”
1.5 点互信息
点互信息PMI(Pointwi Mutual Information)可以用来衡量两个元素(中文单词、英文单词)之间的相关性,其计算公式如下:
(3)
其中w zh和w en分别代表中文单词和英文单词,2 专利双语词典的自动抽取
本研究设计了一种基于专利平行语料库的双语词典自动抽取的方法,其核心内容和技术主要包括了:上述的专利对的抽取、维基百科种子双语词典的抽取、专利对英文文档的单词短语化、句对齐和点互信息的计算。
双语词典的自动抽取流程如图1所示:首先,利用专利数据的中英文版本抽取出摘要专利对;其次,利用中文分词器6对专利对中的中文文档进行分词,并对英文文档进行词干化7处理;然后,利用Word2Phra将专利对中的英文文档进行单词短语化处理;利用维基百科种子词典将上述处理过的专利对进行句对齐,并计算中英文词对的PMI得分8;最后,对一个指定的中文单词,根据种子双语词典、PMI得
分筛选出候补英文对应词形成候补词对。
图1
双语词典自动抽取的流程图
4 wzh的出现频度除以总词数。
5 每个中文文档配对上其对应的英文文档。
6 本研究中的中文分词采用了jieba分词(/fxsjy/jieba)。为提高分词的准确性,利用中文专利全件半自
动清洗加工后的结果对用户自定义词典进行了优化。
7 本研究采用了波特词干算法(Porter Streamming Algorithm)。为确保一致性,对维基百科种子词典等语义资源也进行了
同样的词干化处理。
8 为达到更好的计算效果,本研究中仅对DF大于5且小于总文档数0.1倍的候补词进行计算。
述步骤来实现对应英文候补词的抽取。
3 实验
3.1 实验数据
实验对象涉及申请日截至2017年6月可进行中英文配对的摘要专利对2576992对,所利用种子双语词典来源于2018年5月1日中文维基百科数据。
其中,中英文配对的摘要专利获取自国家知识产权局著录项和摘要的公开数据。为保证数据的合法性
、有效性和权威性以及数据挖掘的基本需要,使用了国家知识产权局知识产权出版社提供的本地化数据。通过解析、入库和再整理,梳理和抽取出了103个国家地区的116429414(2017年6月时点),通过PCT信息获取了其中2576992对。利用分词工具11对专利的中文版本进行了分词,对专利的英文版本进行了词干提取。
实验中考虑到不同DF(Document Frequency)对于双语词典抽出效果的影响,选择了不同DF范围的中文候选词作为评测对象,见表1。
种子双语词典则通过以下的方式获取:
从维基百科dump文件下载站12下载中文维基百科的dump数据,主要是网页数据“Recombine articles, templates, media/file descriptions, and primary meta-pages”和跨语言链接“Wiki interlanguage link
利用MediaWiki13提供的tables.sql构建维基百科的数据库;借助工具MWDumper14解析网页数据,并用mysqlimport命令导入跨语言链接数据;
通过下列SQL语句获取维基百科中英文条目对,作为种子词典:SELECT B.page_title, A.ll_title FROM langlinks AS A LEFT JOIN page AS B ON A.ll_from=B. page_id WHERE B.page_namespace=0 AND B.page_title IS NOT NULL AND A.ll_lang="en"。其中,page表是网页数据解析后的表,langlinks是跨语言链接数据表;
对种子双语词典进行正则处理:替换_*[(\(].*?[)\)]为空字符串,再替换_为空格。
3.2 评价内容和评价结果
本研究中对实验对象利用所提出方法自动抽取中英文词对后进行人工评判,评判标准为对于指定中文候选词抽取出的英文对应词,前3个候补中有正确的对应词即视为正确。
为了解决所提出方法各步骤、DF值和中文词长对抽取结果的影响,实验中按照DF-步骤、中文词长-步骤对抽取结果进行了评价,结果见表2。
其中,PMI为仅使用PMI得分的抽取结果(Baline),WIKI为使用了基于维基百科的种子双语词典后的抽取结果,PHRASE为对英文文档执行了单词短语化后的抽取结果,SA则代表施行了句对齐处理后的抽取结果。
9 本研究中设定的阈值为1.0。
10 本研究中设定前3个词英文对应词候补。
11 /fxsjy/jieba.
12 /zhwiki.
13 /wiki/MediaWiki.
14 /wiki/Manual:MWDumper.