《语料检索的速成教程:已经词性赋码语料的检索》
作者:李亮(广东外语外贸大学词典学中心)
2012年8月16日Email:492130980@
AntConc的下载地址/
【步骤1】准备两个txt文件,和AntConc软件;
【步骤2】其中一个txt文件是“干净语料”;
【步骤3】而另一个txt文件是“下划线型”的词性标注(POS,partsofspeech),
adj表示形容词,vt表示及物动词,period表示句号;
【步骤4】运行AntConc,从菜单“File”上选择“OpenFile(s)”;
【步骤5】在“文件选择对话框”中找到即将处理的文件,“打开”它;
【步骤6】它就被加载到AntConc的左侧上方的“待处理的文件列表”了,虽然看
到是因为中文文件名而乱码却不影响我们后续的操作;
【步骤7】假设我们需要检索“形容词+名词”这样的搭配,就输入“*/adj*/noun”,
这里是“星号+斜线+词性标签”的哈;注意adj后面有1个空格;
【步骤8】近距离看看吧,“Windows放大镜”真是帮助了“近视眼”!
【步骤9】“Words”这个选项的前面的小勾勾,可以勾上,可以不够上都不太影响
检索结果的;星号是“通配符”,表示一个或多个字符;例如“b*e”就表示bee或
bake或battle;再例如“*ful”就表示artful或helpful或skillful之类的
【步骤10】点“Start”按钮之后就看到检索结果了,关键部分的单词们都变成了天
蓝色,被染色的也包括了“词性标签”呢
【步骤11】近看一下吧,好美哟
【步骤12】如果不是检索搭配模式,而只是检索某个词性(词类)的话,就直接来
个“星号加斜线加词性标签”;注意哈,“/”这是斜线,而“”这是反斜线哟,上面
偏左或是偏右决定了“正反”,嘻嘻“左倾是反,右倾是正”
【步骤13】近观一下结果吧,蓝蓝的是“被命中的对象们”
【步骤14】如果你不需要看到检索结果有“词类标签”,那么就要进行“Global
Settings”的小小设置哈
【步骤15】“显示,彻底隐藏,隐藏而可被检索”这三项要选择第3个,同时,一定
要把“Hideembeddedtags”的默认的“_”改为“/”,因为我们是“斜线型标注”
【步骤16】设置完,不要忘记点右下角的“Apply”按钮哟,否则你就等于放弃了
这些设置了!
【步骤17】设置完,我们再次确认,是“*/adj”,就是要检索所有的“形容词adjective”,
好,点“Start”
【步骤18】出来了!蓝蓝的形容词们啊,可苦了我的一番心血
【步骤19】到上面为止你已经掌握了“斜线型词类标注”的检索,但是,“XML型
标注”正在崛起,越来越多呢,我们继续学“XML型词类标注”的检索技巧吧……
【步骤20】假设我们仅仅是对fat进行了标注,“
签”,“”这是XML标注的“结尾标签”,前后呼应,真是壮观而科学呀!瞧,
下面我输入的“东东”
【步骤21】输好了,就点“Start”按钮
【步骤22】哇,再次呈现漂亮的检索画面:带XML标签的fat呢
【步骤23】好,上面就是XML型标注的检索的技能,下面是“下划线型词性标注”
的检索讲解,瞧,下面的“东东”
【步骤24】假设我们只是对fat进行了“下划线型标注”,我们同样是输入“*_adj”
这么一个符合当前需求的“特殊字符串”来搜索……星号表示一个或多个字符所组
成的“某个单词”
【步骤25】瞧,关键词+下划线+语料标签都变成了“蓝精灵”
【步骤26】学到这里,但你也许照着做却发现完全不能出来上面的任何结果呢,为
什么?原因极大可能就是“文字编码”不是AntConc所默认所喜欢的“ANSI”!所
以,跟我来,把你的txt文件变一变吧,经过一个小操作你就成功了!
【步骤27】如上图,双击打开你的txt文件,然后点“另存为”
【步骤28】瞧上图的下部的“编码”,你当前是“UTF-8”这种文字编码呢,怎么会
这样呢,别管了,你直接把它变成ANSI吧就能检索了,听我的没错!
【步骤29】你鼠标选择“编码”这个下拉菜单中的第一项“ANSI”,然后点“保存”,
稍等一两秒,就算做好了!
【步骤30】那么,汉语语料用上述方法是否也能搞掂呢?答案是“否”
【步骤31】上图的汉语语料已经被典型的标注为“斜线型词性标注”了,用“*/adj”
检索下,看看效果如何?
【步骤32】天!全乱了,虽然其中的“/adj”与“/noun”等标签依然是“依稀可见”
【步骤33】别急,小意思,设置一下“文字编码”即可“破镜重圆”的
【步骤34】点“GlobalSettings”的“LanguageEncodings”,然后点“Edit”这个
按钮,它弹出一个下拉菜单来……你就如下图的选一下啦
【步骤35】点了“Apply”按钮,确认且退出之后,就在主界面点“Start”按钮……
哇,奇迹出现了,不仅不乱码,连左侧的文件名列表也完全是正常的汉字了!
【步骤36】日语的语料检索却跟英语和汉语都不一样呢,下面我展示一下
【步骤37】上图是一句日语,第二行是对应的汉语句子;下图是用斜线标注,标注
用的汉语标签;
【步骤38】日语检索的特殊性在于你必须提供“UTF-8”的文字编码的txt文件,所
以我们双击打开语料文件之后,点菜单“另存为”;
【步骤39】把默认的“ANSI”的编码,重新选择为“UTF-8”,点保存,然后退出;
【步骤40】启动AntConc,还需要设置一下“LanguageEncoding”,有点熟练了,
对不对?毕竟做了好几遍了
【步骤41】如下图,你选择“uft8”,它是Unicode编码的8位形式,也属于Unicode,
而16位甚至32位的Unicode是未来的大趋势!
【步骤42】如下图,输入我们要检索“名词”……
【步骤43】如下图,日文显示完全正常,以上做法是我的推荐,也许还有其他可行
的做法,欢迎你找找看……
本文发布于:2022-11-24 23:34:04,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/14948.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |