中文分词入门之资源我爱自然语言处理

更新时间:2023-07-13 19:45:46 阅读: 评论:0

中文分词入门之资源我爱自然语言处理
作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。
SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“Special Interest Group for Chine Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG汉“或“SIG漢“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003年在日本札幌举行(Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届(Bakeoff 2006)则在前两届的基础上
加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届,其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的,但是请注意使用的前提是非商业使用(non-commercial):
The data and results for the 2nd International Chine Word Segmentation Bakeoff are now available for non-commercial u.
在Bakeoff 2005的主页上,我们可以找到如下一行:“The complete training, testing, and gold-standard data ts, as well as the scoring script, are available for rearch u”,在这一行下面提供了三个版本的icwb2-data。下载解压后,通过README就可以很清楚的了解到它包含哪些中文分词资源,特别需要说明的是这些中文分词语料库分别由台湾中央研究院(Academia Sinica)、香港城市大学(City University of Hong Kong)、北京大学(Peking University)及微软亚洲研究院(Microsoft Rearch)提供,其中前二者是繁体中文,后二者是简体中文,以下按照README简要介绍icwb2-data:
1) 介绍(Introduction):
iline
本目录包含了训练集、测试集及测试集的(黄金)标准切分,同时也包括了一个用于评分的脚本和一个可以作为基线测试的简单中文分词器。(This directory contains the training, test, and gold-standard data ud in the 2nd International Chine Word Segmentation Bakeoff. Also included is the script ud to score the results submitted by the bakeoff participants and the simple gmenter ud to generate the baline and topline data.)
2) 文件列表(File List)
在gold目录里包含了测试集标准切分及从训练集中抽取的词表(Contains the gold standard gmentation of the test data along with the training data word lists.)
在scripts目录里包含了评分脚本和简单中文分词器(Contains the scoring script and simple gmenter.)
在testing目录里包含了未切分的测试数据(Contains the ungmented test data.)
在training目录里包含了已经切分好的标准训练数据(Contains the gmented training data.)
惊喜的英文是什么
在doc目录里包括了bakeoff的一些指南(Contains the instructions ud in the bakeoff.)
3) 编码(Encoding Issues)
文件包括扩展名”.utf8”则其编码为UTF-8(Files with the extension “.utf8″ are encoded in UTF-8 Unicode.)
文件包括扩展名”.txt”则其编码分别为(Files with the extension “.txt” are encoded as follows):
前缀为as_,代表的是台湾中央研究院提供,编码为Big Five (CP950);
前缀为hk_,代表的是香港城市大学提供,编码为Big Five/HKSCS;
angie
前缀为msr_,代表的是微软亚洲研究院提供,编码为 EUC-CN (CP936);
前缀为pku_,代表的北京大学提供,编码为EUC-CN (CP936);
EUC-CN即是GB2312(EUC-CN is often called “GB” or “GB2312″ encoding, though technically GB2312 is a character t, not a character encoding.)
一对一外教
4) 评分(Scoring)
评分脚本“score”是用来比较两个分词文件的,需要三个参数(The script ‘score’ is ud to generate compare two gmentations. The script takes three arguments):
1. 训练集词表(The training t word list)project fiona
2. “黄金”标准分词文件(The gold standard gmentation)
3. 测试集的切分文件(The gmented test file)
以下利用其自带的中文分词工具进行说明。在scripts目录里包含一个基于最大匹配法的中文分词器mwg.pl,以北京大学提供的人民日报语料库为例,用法如下:
./mwg.pl ../gold/pku_ < ../testing/ > pku_
其中第一个参数需提供一个词表文件pku_,输入为,输出为pku_。
利用score评分的命令如下:
soccer怎么读./score ../gold/pku_ ../gold/pku_ pku_ >
其中前三个参数已介绍,而则包含了详细的评分结果,不仅有总的评分结果,还包括每一句的对比结果。这里只看最后的总评结果:
= SUMMARY:
=== TOTAL INSERTIONS: 9274
=== TOTAL DELETIONS: 1365
=== TOTAL SUBSTITUTIONS: 8377column是什么意思
=== TOTAL NCHANGE: 19016
=== TOTAL TRUE WORD COUNT: 104372
=== TOTAL TEST WORD COUNT: 112281
=== TOTAL TRUE WORDS RECALL: 0.907
=== TOTAL TEST WORDS PRECISION: 0.843
=== F MEASURE: 0.874
=== OOV Rate: 0.058
=== OOV Recall Rate: 0.069
=== IV Recall Rate: 0.958
### pku_ 9274 1365 8377 19016 104372 112281 0.907 0.843 0.874 0.058 0.069 0.958
说明这个中文分词器在北大提供的语料库上的测试结果是:召回率为90.7%,准确率为84.3%,F值为87.4%等。
成都朗阁培训中心SIGHAN Bakeoff公开资源的一个重要意义在于这里提供了一个完全公平的平台,任何人都可以拿自己研究的中文分词工具进行测评,并且可以和其公布的比赛结果对比,是驴子是马也就一目了然了。
注:原创文章,转载请注明出处“我爱自然语言处理”:
本文链接地址:/中文分词入门之资源
相关文章:
1.中文分词入门之字标注法2
2.中文分词入门之最大匹配法扩展2
3.顺时针方向中文分词入门之文献
4.Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器
5.中文分词入门之字标注法3
6.中文分词入门之字标注法1 软件工程师就业前景
7.中文分词入门之最大匹配法扩展1
8.基于字标注的中文分词方法
9.Beautiful Data-统计语言模型的应用三:分词6
10.中文分词入门之最大匹配法

本文发布于:2023-07-13 19:45:46,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/1094833.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分词   提供   需要   入门   资源
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图