第26卷第12期2020年12月
计算机集成制造系统
Computer Integrated Manufacturing Systems
Vol.26No.12
Dec.2020
DOI:10.13196/j.cims.2020.12.003
面向智慧运维的分布式光伏知识库构建方法
欧一鸣1,苏雍贺1,邹孝付1+,靳健2,张长志3,陶飞1
(1.北京航空航天大学自动化科学与电气工程学院,北京100191;
2.北京师范大学政府管理学院,北京100875;
3.国网天津市电力公司电力科学研究院,天津300384)
摘要:针对当前分布式光伏智能运维缺乏特定知识库支撑的问题,研究提出一种改进的面向智慧运维的分布式光伏知识库构建方法,该方法从实体提取和实体关系提取两个方面进行改进。为减小文本固定句式对知识库构建效果的影响,设计了基于词向量(word embedding)改进的TextRank算法的实体提取方法。为解决现有模型分类器层与数据匹配不足的问题,设计了基于多标签问题改进的分段卷积神经网络模型的实体关系提取方法。通过实验对比分析结果表明,改进后的方法可有效提升自动化程度,减少人力成本,提升准确性。
关键词:分布式光伏;智能运维;知识库;知识图谱;自然语言处理
中图分类号:TP301.6文献标识码:A
Knowledge ba construction for distributed photovoltaics mart maintenance
OUYiming1,SUYonghe1,ZOUXiaofu1+,JIN Jian2,ZHANG Changzhi3,TAO Fei1
(1.School of Automation Science and Electrical Engineering,Beihang University,Beijing100191?China;
2.School of Government,Beijing Normal University,Beijing100875,China;
3.Electric Power Rearch Institute,State Grid Tianjin Electric Power Company,Tianjin300384,China)
Abstract:Aiming at the lack o£domain-specific knowledge ba in many distributed photovoltaic maintenance systems)a framework regarding how to construct a knowledge ba intelligently for smart maintenance of distributed photovoltaic was propod,which included two aspects that were entity extraction and entity relation extraction.To relax the potential susceptibility from ntence patterns,an improved TextRank algorithm bad on word embedding was applied for entity extraction.To improve the unfitness between the classifier layer and data deficiency,a Piece-wi Convolutional Neural Network(PCNN)model for multi-labeling was leveraged to extract entity relations.Categories of experiments showed that the improved approaches could help to provide a higher degree of automation and reduce labor costs with better accuracy.
Keywords:distributed photovoltaic;smart maintenance;knowledge ba;knowledge graph;natural language processing
收稿日期:2020-06-28;修订日期:2020-09-27°Received28June2020;accepted27Sep.2020.
基金项目:国家重点研发计划资助项目(2018YFB1500800);河南省机械装备智能制造重点实验室开放基金资助项目(IM2O19O1);国家电网有限公司科技资助项目“分布式光伏系统智慧运维技术M(SGTJDK00DYJS2000148)o Foundation items:Project supported by the National Key R&D Progr
闲逸的意思
am,China(No.2018Y FB1500800),the Open Fund of Henan Provincial Key Laboratory o£Intelligent Manufacturing of Mechanical Equipment,China(No.IM201901),and the Intelligent Operation and Maintenance Technology of Distributed Photovoltaic System of Science and Technology Project of State Grid Corporation,China(No.SGTJDK00DYJS2000148).
3206计算机集成制造系统第26卷
0引言
近年来,分布式光伏产业呈现爆发式增长,但行业飞速发展的同时也对分布式光伏电站的运维能力提出了新的要求。分布式电站距离过远、信息无法精准传递,因此无法像大规模集中式电站一样组建一支随时待命的高专业度运维团队。同时,目前的分布式光伏运维工作通常由第三方公司或个人承担,人员的专业度很不稳定,运维模式又很依赖经验,往往会误判电站的故障,造成人员在故障电站与运维站点间重复往返,降低运维效率。因此,亟需一种智慧运维系统,根据电站业主的运维诉求,提供精准的电站状态判断和方案支持,以节省运维人员的精力、避免重复往返浪费时间,进而改善当前的运维现状。
要实现这样的智慧运维系统,首先需要建立适用于分布式光伏运维领域的相关知识库。这种知识库有利于智慧运维系统从更加专业的角度分析问题,并利用分布式光伏领域知识为运维人员提供更专业的
技术方案支持,因此建立分布式光伏领域的知识库是智慧运维的关键步骤。
对计算机系统来说,传统的文本形式知识库在检索速度、逻辑推理、知识结构表示等方面都存在一定的短板,因此建立一种细粒度的、图谱化的知识库已成为新型智能运维系统的新需求。知识图谱(knowledge graph)是Google公司在2012年提出的概念,它包含现实中的各种实体以及实体之间的关系,实体按照关系相互连接,表示为语义网络的形式。在知识表示方面,它的基本单元为[头实体(Head),实体关系(Relation),尾实体(Tail)]形式的三元组,有利于计算机进行推理、存储和表示。对分布式光伏领域而言,构建这样的知识库则是要将领域中的设备部件和技术故障等相关概念作为实体,并按照关系相互连接形成图谱。有了这种图谱化的知识库,智慧运维系统可以更加标准化、有逻辑地为运维工作提供服务,如雷兵E使用Web本体语言(Web Ontology Language,OWL)构建了一个商务需求领域的图谱化知识库,可以有效地对客户需求进行提取,这与分布式光伏运维领域利用知识库从运维诉求中提取信息是相通的。
在预想的应用场景中,为了充分利用图谱形式知识库的细粒度、可推理等特性,智慧运维系统应能够将运维诉求描述与图谱中的实体元素对应,并通过实体之间的关系,将诉求映射到图谱中的一个子图中,再利用图搜索技术获取方案。为支持该预想应用场景的实现,知识库对分布式光伏领域的实体与实体关系的提取步骤提出了更高的要求。为实现专业领域的诉求理解,需要进行更细粒度的实体提取,并对准确度提出更高的要求。为更好地发挥图谱化知识库支持推理的特性,需要更全面、更准确
地提取实体之间的关系。对于当前的数据情况,基于无监督学习的实体提取和基于远程监督学习的实体关系提取方法是较为合适的方法,但现有算法模型与分布式光伏领域的数据特点不太契合,需要进行改进。
针对以上问题,本文在实体提取步骤上,将其转化为领域关键词发现问题,利用基于word2vec生成的词汇相似度,改良TextRank算法,实现分布式光伏领域的实体提取。在实体关系提取步骤上,对于领域中同一对实体可能同时有多种关系的情况,改良了分段卷积神经网络分段卷积神经网络(Piece-wi Convolutional Neural Network,PCNN)的分类器层,使其更契合分布式光伏领域的数据情况。本文改良的知识库构建方法,自动化程度较高,可以有效减少构建所需的人工成本,并能够以现有数据填补面向分布式光伏智慧运维知识库的空白,同时提高准确性。
1光伏智慧运维知识库的国内外研究现状
1.1知识库在智慧运维中的应用
目前,知识库在智慧运维中主要分为文本知识库和图谱化知识库两种形式,构建的主要数据来源包括维修工单和用户手册中的文本的〕。文本形式的知识库在应用中主要通过语义分析等手段与输入的诉求进行文本匹配。如鞠冬彬旳将用户的业务查询信息与文本知识库中的文档进行比对,提高了运维客服的处理速度。但这种知识库的应用通常仅从文本分析的角度出发,在限定领域中缺乏专业的分析能
高中英文作文
力,容易误判诉求信息。而图谱化知识库由领域内的实体名词与实体关系构成,能够描述实体之间的关系,可以用于设备状态评估和运维预案生成。邱剑⑷利用图谱化的知识库构建了一种面向电网运维的自然语言处理引擎NLP4PG,可以从历史工单的文本数据中提取专业信息、评估设备的状态。许鑫设计了一种自然语言预案生成系统,通过建立电力领域的图谱化知识库来提取和利用电力领域的
第12期欧一鸣等:面向智慧运维的分布式光伏知识库构建方法3207
知识,为运维人员的检修工作提供一定的指导。万姗等皈将数控机床的结构化本体库作为一种图谱化知识库,根据维修需求的案例适应度匹配历史方案作为预案。这种知识库支持推理,在专业领域中能够更好地分析问题,在运维中提升诉求理解的准确性。
目前,在实践中图谱化知识库的构建主要有自顶向下和自底向上两种流程⑷:
(1)自顶向下构建通常是半人工半自动构建,该方法先人工确定好数据模式与知识库结构,再往其中填入实体等知识,七步法少切就是典型的专业领域图谱化知识库自顶向下构建方法。由于领域实体数量较多、实体之间关系复杂,这种自顶向下的构建方法比较耗费人力,而且对人员的专业度要求高,准确度容易受到人员主观影响。
(2)自底向上构建该方法需要利用无监督或远程监督学习等技术手段,从文本中自动抽取知识
构建图谱化知识库。如IBM Watson[12]平台使用了一种实体连接算法来自动构建图谱。这种自动构建方法可以节省人工成本,构建速度也较快,同时也能保证准确度。
1.2图谱化知识库自动化构建相关研究
目前,图谱化知识库的自动构建分为自动映射和非结构化数据提取两种。自动映射主要有结构化数据映射匚词和基于模板抽取匚⑷两种方法。非结构化数据提取一般是指从文本中提取所需知识,提取目标为实体和实体关系,再将实体通过实体关系相连接形成知识图谱,因此流程分为实体提取和实体关系提取两步,典型的有DeepDive〔旧提取框架。本
文构建分布式光伏领域知识库的数据都来源于文本,因此要从非结构化数据中提取相应领域的知识,包括实体提取和实体关系提取两步。
1.2.1领域实体提取研究现状
实体提取步骤又称为命名实体识别,分为有监督学习和无监督学习两类方法。在有足够标注数据
的情况下,监督学习方法中的卷积神经网络(Convolutional Neural Network,CNN)、条件随机场(Conditional Random Field,CRF)结合BiLSTM 模型〔切等方法可以得到较好的效果,但若没有现成
的标注数据,则要消耗很多人力物力来获取。目前,由于分布式光伏领域还比较缺乏有标注数据,本文采用无监督的领域实体提取方法。对于无监督的实体提取任务,常用手段包括基于半结构化数据库、基于规则模板和匹配基于统计特征的方法。
德语发音
曼德拉去世(1)基于半结构化数据库的方法是利用网络百科等有一定书写规律的数据来提取实体,建立词典后,借助词法和句法分析手段,提取出数据中蕴含的实体名词。Guo等「切设计了一种基于维基百科的实体提取流程,通过建立字典并设计一套流程,提取出句子中蕴含的实体。
(2)基于规则模板匹配是由人工制定一套规则来进行直接匹配。这种规则可以是基于词典的字符串匹配等,由人工进行测试,然后不断改进,最终达到较好的效果购。十一月英语
(3)基于统计特征的方法是根据词汇在领域文本中的统计信息所提取的特征,通过赋予词汇权重或者与开放领域语料库进行比较,来提取领域实体名词,该过程也用于解决关键词提取问题。赵志滨等采用词频一逆文档频率值(Term Frequency-Inver Document Frequency,TF-IDF)值结合词向量作为特征来发现领域词汇,Lee等即」使用基于PageRank的算法来判断一个词是否属于关键词。
对于本文来说,由于分布式光伏运维是一个新兴领域,相关的百科数据库尚不完善,缺乏难以直接使用基于网络数据库的方法。基于规则模板匹配的方法对人力的依赖程度非常高,需要高度专业的领域和语言专家进行大量的工作才能完成。基于统计特征的方法对人力成本的消耗很低,通用性较强,常
用方法有TF-IDF和TextRank等,但容易受到固定句式等因素影响,需要引入外部信息来进行改进。
1.2.2实体关系提取研究现状
实体关系提取的主要任务是给定一对实体,从已有的文本数据中提取出这两个实体之间的关系,通常以三元组的形式表示,主要分为有监督学习、无监督学习、半监督学习和远程监督学习4种方法。在有标注数据充足的情况下-TextCNN等卷积神经网络是一种行之有效的文本分类有监督学习模型口口,但由于目前分布式光伏领域缺乏已标注数据,无法使用有监督方式进行。无监督方法主要应用于开放领域,对于限定领域的关系提取不够细致,无法满足面向智慧运维的知识库要求。半监督方法能够只利用少量的有标注样本,让模型根据一定的模式自我训练,如Hakami等网基于自监督方法进行关系提取,倪维健等閥通过转导支持向量机(Transductive Support Vector Machine,TSVM)
3208
计算机集成制造系统第26卷
转导支持向量机进行半监督学习。半监督方法虽然 对人工标注的需求较低,但容易出现“语义漂移"的
问题,准确度不足。远程监督方法可以利用公共领 域知识库,通过学习其他知识库中表示同样实体关
系的文本特征,来判断分布式光伏领域文本中的实 体关系,这种方法不需要领域内的有标注数据,准确
度也较高。
远程监督关系提取主要包括基于语法特征的方 法、基于隐变量概率分布的方法和基于神经网络的 方法。基于语法特征的方法是指分析两种实体之间
的语法特征作为实体关系的分类依据。Mintz 等閥 利用依存句法分析了维基百科中的文本,在使用这
种方法时首次采用了远程监督手段,同时还作出了 “远程监督假设",认为所有同时提到两个实体的句
子都有可能蕴含两个实体的关系信息。基于隐变量 概率分布的方法采用隐含狄利克雷分布的模型对句 子的统计信息进行建模。如周娜等[旳通过构建隐 含狄利克雷分布(Latent Dirichlet Allocation ,
LDA)主题模型,提取核心期刊的“作者一内容一方
法”之间的关系。基于神经网络的方法将深度学习
模型用于实体关系提取,常用的深度学习模型包括 卷积神经网络等,在实体关系提取任务上的准确度chuck
已显著高于传统的机器学习方法[绚。
目前,基于CNN 的方法性能较优,该方法可 以减少对现有词法、句法分析等自然语言处理工 具的依赖,避免错误率叠加,从而提高准确度和可
用性。同时,在网络的池化层使用分段池化方法, 可以将实体的上下文与位置关系等信息也提取出 来,提升模型效果。在当前的CNN 模型中,分类
器层多使用Softmax 分类器,这种分类器适合多分
类问题,并能够得到每个类的相应概率。但由于
分布式光伏领域中,同一对实体的多种关系之间 并不互斥,如果使用CNN 模型,可以对分类器层 进行相应的修改,使提取结果更加全面,提高准
确度。
2分布式光伏图谱化知识库构建模型
当前分布式光伏领域可利用的文本数据主要包
括维修工单和运维手册,数据量较大,均为没有标注
的文本数据。本文将利用分布式光伏领域无标注文 本,采用无监督的方法,进行基于统计特征的实体提
取,构成领域实体库;利用开放领域的知识库数据, 采用远程监督的方法,进行实体关系提取,构成实体 关系库。
具体构建流程如图1所示,包括实体提取步骤 和实体关系提取步骤。
实体关系提取
分布式光伏 图谱化知识库
实体关系三元组
关系捉取模型
远程监督学习神经网络构建
词向址表示
实体词汇提取
分布式光伏、 运维手册4
实体提取
文本预处理
H U 权重初始化n H
杈直转移迭代
多4'fits
仞学习策略
公共领域 、 知识卉-J
c 分布式光伏缺乏
9有标睦数据
PC
炙神经网络
引入外部变•;.!:
公共领域样本有 较大噪声问题
c 需要提取更多、
career是什么意思
J 信息梃弃粘度丿
j 同宦句式导致'图1知识库构建流程图
(1)实体提取步骤因为分布式光伏领域可利
用的数据中多为无标注的陈述性文本,所以可以转 化为关键词提取问题。在该问题上,基于图模型的
TextRank 算法是一种广泛使用的方法际2门,该方
法通用性较强,不需要额外的训练数据。但是在单 一领域的文本数据中,存在固定句式导致非领域词
第12期欧一鸣等:面向智慧运维的分布式光伏知识库构建方法3209
汇权重相互抬升的现象。因此,本文根据李俊等匚遡引入外部语义信息改善权重传递过程的方法,针对
分布式光伏领域,通过引入外部词向量来改进Tex-tRank算法。该步骤利用运维手册中的无标注文本数据,获取光伏领域的实体词汇,以降低人工筛查的工作量,并提高提取性能。
(2)实体关系提取步骤本文利用公共领域的百科数据库,通过远程监督学习的方法建立神经网络模型,
从分布式光伏领域的无标注文本中提取实体关系。本文采用PCNN模型,更加注重实体之间的位置、距离和上下文关系;又根据分布式光伏领域实体之间可能有多种关系的特点,对模型的分类器层进行修改,形成了更适用于该领域的分段卷积神经网络一光伏(Piecewi Convolutional Neural Network-Photovoltaic,PCNN-PV)模型;又由于远程监督学习面临较大的数据噪声问题,使用多示例学习的方式来回避错误样本对模型训练过程的影响。最后,利用该模型处理分布式光伏领域文本,获得领域内的三元组信息,完成图谱化知识库的构建。
3基于改良TextRank的图谱化知识库实体提取方法
3.1TextRank方法介绍
TextRank t31]是一种经典的无监督关键词提取算法,具有良好的通用性。其输入是需要提取关键词的全部文本,通过给输入文本中的所有词赋予权重,得到所有词汇的权重列表作为输出。该算法的核心思想是:每个词将权重转移给它连接到的词,并获得其他词转移来的权重,经过多轮迭代后逐渐收敛,得到稳定的词汇权重。
令语料库中所有词汇的集合为M,向量M的长度为尬,建立权重转移矩阵A,则AGR”。词汇®从3$获得的权重转移量表示为衍,因此,对于A中的元素a,?有:
=JO(wj) (1)
[o Wt@ Lj
式中:a>0表示权重在转移过程中w,-在®的共现窗口中出现过的次数;0(®)表示®为中心的共现窗口中出现除自己外所有词的数量。按这种方式对所有词汇组合生成砌,直到权重转移矩阵A建立完毕。初始化权重向量内所有的词的权重R(s)=l,所有词汇的TextRank权重组成词汇权重向量S,则有S'=
将状态转移矩阵A作用于权重向量必为迭代次数,得到S i+1=A T S\为保证权重达到收敛,定义阻尼参数d,此时有S t+1=Cl-d)S k+dAS仁按如此过程反复迭代,直到权重向量S收敛。求出所有词汇权重后,可以按照权重大小排序,提取出分布式光伏领域的关键词。最后,根据关键词的词性进行筛选,提取出名词关键词作为光伏领域的实体名词。
3.2基于词向量距离的TextRank改良方法
在当前TextRank算法的假设中,在每一轮的权重迭代时,每个词应该只以共现窗口中的出现次数为依据,将权重传递给相邻的词。但是光伏运维手册中含有大量的固定组合句式如“……检查原因”,使得这些固定组合中的词汇存在相互抬升权重的现象,从而导致分布式光伏领域实体名词的权重排序受到干扰。
针对这种情况,本文对权重转移过程进行了改良。受无监督的聚类算法启发,本文认为,在以寻找光
伏领域关键词为目的时,可以引入词向量影响权重转移的过程,减小无关词汇权重相互抬升。设定数个分布式光伏领域词汇作为“核心词汇”,在词向量空间中距离“核心词汇”越近的词将拥有更高的“质量”,在权重转移的过程中将获取更高的权重。
本文中TextRank算法的主要任务是获取分布式光伏领域的实体名词,因此可设置“光伏”、“设备”等词为核心词汇,如果核心词汇不止一个,在判断词汇质量时分别计算与核心词汇的词向量距离,取最小值。假设有核心词汇{◎】,w e2,w c3},核心词汇的词向量分别为{V“,乞2,久“,待判断词汇w,-的词向量为匕,两词向量之间的距离取欧氏距离,记为:
=II II o(2)根据词向量之间的距离,定义该词与核心词汇的相似度函数,使得越靠近核心词汇相似度越大,并用一个非线性函数将相似度限定在(0,1)之间,避免权重都向某几个词集中,本文使用如下双曲正切函数:Sim(Vi)=max(tanh(当(3)
c=cl,c2,c3\\Clic//
如为词汇®从卩获得的权重转移量,则进一步处理式(3):
t(Sim(Vi)X Wi G Lj
adelS=*c T⑷
〔0u)i$Lj
为了保证在迭代过程中,权重总量不过分膨胀或缩水,对所有从®转移出去的权重进行归一化操作,并使单个词汇的权重转移向量元素之和为弱音器