ISSN 1000-0054CN 11-2223/N
清华大学学报(自然科学版)J T singh ua Un iv (Sci &Tech ),2009年第49卷第10期
2009,V o l.49,N o.10w 39
qhx bw.chinajo urnal
基于条件随机场的古文自动断句与标点方法
张开旭1
, 夏云庆2
, 宇 航
1
(1.清华大学计算机科学与技术系,北京100084; 2.清华大学清华信息科学与技术国家实验室,北京100084)
收稿日期:2008-10-16
基金项目:国家自然科学基金资助项目(60703051,60873174);
国家“八六三”高技术项目(2007AA01Z148)
作者简介:张开旭(1984—),男(汉),重庆,博士研究生。通讯联系人:夏云庆,博士,副研究员,word文档表格怎么调整行高
E-mail:yqxia@ts inghua.edu
摘 要:标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(conditional ra ndom field )的古文自动断句标点方法,并引入互信息和t -测试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《
痛感神经
论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。
关键词:计算机应用;信息处理;古汉语标点;条件随机场中图分类号:T P 391.1
文献标识码:A
文章编号:1000-0054(2009)10-0163-04
CRF -bad approach to ntence gmentation and punctuation for
ancient Chine pro
ZHANG Kaixu 1,XIA Yunqing 2,YU Hang 1
(1.Department of Computer Science and Technology ,
T s inghua University ,Beij ing 100084,China ;
生产车间标语大全2.Tsinghua National Laboratory for Information Science and Technology ,Tsinghua University ,Beijing 100084,China )Abstract :T hough pun ctuation is im portant in moder n C hine,punctuation marks w ere not us ed in ancient Chin e.Th us,an cien t Chin e literature is very hard for modern Chine to read.T his ar ticle prents a con dition al random field (CRF)bad approach to au tom ate ancient Chin e pro punctuation using th e mu tu al information and th e t-test difference as features.Tests on L unyu an d S hij i show that the approach outperforms th e state-of-the-art meth od by 0.124on the F1s core for s entence s egm entation.T hus ,this approach yields promis ing res ults for n tence pun ctuation an alysis on both L unyu an d S hij i .The cascaded C RF approach can deal w ith ancient Chin es e pros e pun ctuation analys is more effectively than the single CRF.Key words :com puter
application s;in form ation p roces sing ;pun ctuation mar k of
an cient
Chine;
con dition al
random field
众所周知,古文无标点,不断句。阚景忠认为存在如下语言内文化之因[1]
:1)古文产生之初以记录口语为主;2)古文较多对称,客观上起到了标点断
一日不见如三秋兮句的作用;3)虚词对断句起到了帮助作用;4)韵脚起到了明显的标点断句作用。标点不是句读,原因是句读与表意无关。古文不采用标点进行断句,给现代人研究古文、阅读古文和理解古文造成极大障碍。因此,近年来古文标点断句研究逐渐得到重视。
目前计算机古文处理研究侧重采用自动化手段对原始古文进行自动断句和标点。例如,黄建年和侯超级好听的歌曲
汉清[2]
利用词汇和模式在农业古籍上取得了0.48的断句准确率和0.36的标点准确率。陈天莹[3]
等采取N 元文法在《论语》上取得了0.638的断句F1分数值(文[3]未报告自动标点性能)。
本文使用在现代汉语分词中取得成功的条件随机场(conditio nal random field,CRF)模型,并首次引入互信息(M I)和t -测试差(T -test difference)两个统计量作为特征,在《论语》上取得了0.762的断句F 1分数值和0.621的标点F 1分数值;在《史记》上取得了0.682的断句F1分数值和0.531的标点F1分数值,超出当前最好方法0.124。实验证明,CRF 模型在古文断句与标点中性能突出。
1 条件随机场
条件随机场(CRF )最早由Lafferty 等人提出,目的是为了解决当时各种序列标注模型存在的标注偏置等问题[4]
。该模型可广泛应用在中文自动分词、词性标注、命名体识别等领域,且都有不错的效果。
条件随机场模型是一种对数线性判别模型。设O=(o1,o2,…,o n)为观测序列,T=(t1,t2,…,t n)为某一可能的标注序列, i(O,T)为若干特征函数, i 为其对应权重。则求最佳标注序列就是求
T*=arg max
T ∑
i
i i(O,T).
确定好要使用的特征函数集合后,运用最大似然准则即可通过训练集学习出权重 i的取值。
层叠条件随机场(CCRF)模型[5]根据标注问题的不同,将标注问题分解为若干层,每一层由一个CRF模型完成,这样底层CRF模型的标注输出就可以作为额外特征供高层CRF模型使用。文[5]表明层叠条件随机场模型的引入提高了系统的性能。
2 互信息和t-测试差
在中文自动分词中,有文献不使用带标注的语料库,而直接使用未标注的语料库进行无监督学习。文[6]给出了2个统计量,分别是互信息与t-测试差。仅用这两个统计量来判定每个汉字是否是一个词的末尾,就能达到80%以上的准确度。
长亭送别正宫端正好根据文[4],任两个相邻汉字与任4个相邻的汉字可以分别计算出互信息与t-测试差。由此可根据汉字序列得到相应的互信息序列与t-测试差序列。
在古文断句中,字之间这样的统计信息与该处断句与否也有相关性,故将这两个在分词中有用的统计量用于古文断句中。新增添两列观测序列O mi、O dts。它们是两个离散值序列,其值分别由以上两个统计量序列的值离散化后得到,以适应CRF++工具包[7]只支持离散标注作为特征的特点。
3 基于条件随机场的古文断句和标点
3.1 字符标注体系
在中文分词中,常采用SLM R标注体系对汉字进行标注。S代表该字组成一个单字词,L表示该字处于词的左端,R表示该字处于词的右端,M表示该字处于词的中部。例如句子“扁鹊 见 蔡桓公”其中“ ”为词的分隔符,该句可标注为“LRSLM R”。
对SLMR标注体系进行扩展,提出标注体系系列A ij,对每个汉字用两个数字进行标注,i和j为两个参数。A ij的标注如此进行:对某个汉字,设其与前面最近的分隔相隔a-1个汉字,其与后面最近的分隔相隔b-1个汉字。又x=min(i,a),y=min(j,b),那么该字的标注就是xy。
例如,使用标注体系A11、A22、A33分别标注前述句子,得到的标注序列分别为“11/11/11/11/11/11”、“12/21/11/12/22/21”、“12/21/11/13/22/ 31”。注意到标注体系A11是平凡的,没有给原观测序列增加任何信息,因为它对所有汉字一律标注为“11”;而A22标注体系与SLMR等价。
实验中使用若干种不同的标注体系用于古文断句以比较它们的不同。由于标注体系提供的信息最好前后均衡,所以没有采用像A21、A32、A31、A13等前后信息不均衡的标注体系。最终采用了A12、A22、A23和A33四个标注体系。本文除了标示句子断开的位置,还需要给断开的位置加上相应的标点。因此引入标点标注体系P ij,表示在相应断句标注体系A ij 的基础上,当标注xy中y=1时,将y-的位置替换成对应汉字后面所紧跟的标点符号。对应于断句标注体系,使用P12、P22、P23、P33。没有采用前后信息不均衡的其他标点标注体系。
3.2 窗口宽度模板
本文使用3种窗口宽度,即1、3、5。其中,对某个字符进行标注的时候,除观察序列在该处的字符,窗宽3还考虑前后各1个字符共3个字符,窗宽5则考虑前后各2个字符共5个字符。以当前字符为中心,按照字符个数将模板编号为T1、T2、T3。除了利用观察序列O外,还引入了互信息O mi与t-测试差O dts。因此将这两个观察序列加入模板后,3类基本模板相应扩展为T1E、T2E、T3E。这样,本方法将研究6类模板对断句和标点的作用。
3.3 标点处理策略
本文使用两种不同的标点处理策略:层叠CRF 和单层CRF。
层叠CRF策略将问题分解为两次CRF标注。第一次使用观察序列O(或者再引入互信息O mi与t-测试差O dts序列),用A ij体系标注出断句标注。第二次使用第一次的观察序列以及断句标注结果,用P ij体系标注出标点标注。从而最终获得古文的标点。
单层CRF策略直接为观察序列进行P ij体系的标注,所以也可以看作第一次标注使用标注体系A11的退化层叠CRF。
4 实验和讨论
4.1 实验设置
采用《论语》和《史记》进行评测。为了获得原始古文文本,将现代人插入的所有标点(包括逗号、句号、冒号、分号、问号、感叹号、引号等)全部剔除,以基本恢复《论语》和《史记》的古文原貌。
164清华大学学报(自然科学版)2009,49(10)
与陈天莹等[3]类似,采用4 1的比例随机地将《论语》和《史记》文本划分训练集与测试集。采取5重交叉验证(5-fo ld cro ss v alidatio n)方法进行实验评测。最后再将5次实验结果取平均作为最终结果。
分别对断句和标点处理进行评测,采用与现代汉语分词相同的评测指标,即准确率(pr ecision)、召回率(recall)和F1分数值(F1sco re)[3]。
4.2 实验1:互信息与t-测试差
本实验评测标注集和模板对性能的影响,并对比互信息和t-测试差二特征对性能的影响。使用单层CRF策略,对标注集A12、A22、A23、A33和模板T1、T2、T3进行了对比。将互信息和t-测试差特征引入CRF模型,T n E(n=1,2,3)是在模板T n(n=1,2,3)上引入以上特征后的模板。断句性能和标点性能分别如图1和如图2所示。
图1和图2显示:1)断句和标点都在标注体系A23上取得了最好效果,可以断定标注体系A23的优越性。A33比A23所含信息更多但效果不及后者的原因是标注类型过多而产生的数据稀疏问题。2)断句和标点都是模板T3效果最好,可以断定模板T3的优越性。这也符合CRF运用于中文自动分词中时的结论。3)在引入了互信息和t-测试差二特征后,方法的性能都得到了提高。4)引入以上两特征后,断句和标点依然在标注集A23与模板T3效果最好,可以进一步断定标注集A23与模板T3的优越性。
4.3 实验2:层叠CRF与单层CRF
本实验对比层叠CR F与单层CRF方法的性能差异,采用在实验1中性能表现最好的A23标注集进行实验。本实验评测模板的变化对2个不同标点处理策略的影响。实验结果如图3
所示。
voa美国之声图1 标注集和模板对断句性能的影响
图2
给字怎么写
标注集和模板对标点性能的影响
图3 两个不同处理方法对标点性能的
影响
图3显示:1)在使用同一模板进行断句和标点
处理时,层叠CRF方法基本上都优越于单层CRF方
法;只在使用T3模板进行标点处理时才略逊于单
层CR F方法0.001。而在其他标注体系下的实验结
果表明,层叠CRF均优于单层CRF。2)随着模板不
断由T1向T3过渡,层叠CRF方法相对于单层CRF
方法的优越性越来越小,甚至失去优势。这说明,继
续扩大处理窗口对提高断句和标点的性能帮助不
大。可推断T3是最合适本方法的模板。
4.4 实验3:《论语》与《史记》
本实验对比本文方法在《论语》与《史记》上的性
能差异。采用在实验1、实验2中性能表现最好的A23
标注集和T3模板上进行实验,以层叠CRF为断句
标点处理方法。实验结果如图4所示。
图4显示:在《史记》上,断句和标点处理的性能
都有下降。这是由于《论语》属论说文,以语录形式表
述
,文字更加严谨、工整;而《史记》则属史传文,以
纪传叙述形式表达,文体更加自由,且篇幅更长。二
者在虚词、实词和句型使用上差异较大。本文方法的
效果在其他古文篇章上的性能也将会有所波动。
图4 方法在《论语》与《史记》上的性能差异
将本文方法与陈天莹等的N元文法方法[3]进行
对比。在《论语》断句处理上,本文方法在F1分数值
上提高了0.124。这证明了基于CRF方法的高效性。
陈天莹等未汇报标点处理的性能,但本文方法的标
点处理性能充分显示了CR F方法的潜力。
165
张开旭,等: 基于条件随机场的古文自动断句与标点方法
5 结 论
本文提出一个基于条件随机场的古文自动断句标点方法,提出了多种断句、标点标注方法和多种基于
长度的模板,进而引入互信息和t-测试差两个统计信息作为辅助标注序列,最终实现了层叠CRF与单层CRF两种标点处理策略。对本文的断句、标点方法进行了评测,该方法在《论语》断句处理F1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了较好的效果。此外,实验结果还证明了如下结论:标注体系A23较其他体系更具优越性;模板T3较其他模板性能更优;层叠CRF 策略在标点处理上明显优于单层CRF策略。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题。
参考文献 (References)
[1]阉景忠.古文不标点断句的文化阐释[J].徐州师范大学学
报(哲学社会科学版),1994,31(2):67-69.
YAN Jin gzhong.Cultur al inter pretation of non-pu nctuation
[J].J ournal of X uz hou Normal Univ er sity(P hilosoph y and
S ocial S cience E dition),1994,34(2):67-69.(in Chine) [2]黄建年,侯汉清.农业古籍断句标点模式研究[J].中文信息
学报,2008,22(04):31-38.
HU ANG Jiannian,HOU Hanqing.On Sentence S egmentation and Punctuation M odel for Ancient Books on Agr icultur e[J].Journal of C hine I nf ormation P rocessing, 2008,22(4):31-38.(in C hine)
[3]陈天莹,陈蓉,潘璐璐,等.基于前后文n-gram模型的古汉
语句子切分[J].计算机工程,2007,33(03):192-196.
CHE N T ian ying,CHE N Rong,PAN Lulu,et al.Ar chaic Ch ines e punctuating s en tences bas ed on con text N-gram m odel[J].Comp uter E ngineering,2007,33(3):192-
196.(in Chine)
[4]Lafferty J,M cCallu m A,Pereira F.C on ditional random
fields:Probabilis tic m odels for gmen tin g and labeling s equence data[C]//Proceedings18th Inter national Con ference on M achine L earning.M A,U SA:M organ Kaufmann,2001:282-289.
[5]周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的
中文机构名自动识别[J].电子学报,2006,34(05):804-
809.
ZHOU Juns heng,DAI Xinyu,YI Cunyan,et al.Automatic Recognition of Chine Organization Name Bad on Cascad ed Conditional Random Fields[J].A cta Electronica S inica,2006,34(05):804-809.(in Chin e)
[6]孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件
下的汉语自动分词[J].计算机学报,2004,27(6):736-
742.
S UN M aosong,XIAO M ing,ZOU Jiayan.Chin e w ord s egmentation w ithout using dictionary bas ed on unsu pervis ed learning strategy[J].Chine J ou rnal of Comp uter s,2004, 27(6):736-742.(in Chin e)
[7]T aku Kudo.CRF++:Yet Another CRF toolkit[OL].
(2008).crfpp.sourceforge.n et/.
166清华大学学报(自然科学版)2009,49(10)