日语速成

更新时间:2022-11-24 23:34:04 阅读: 评论:0


2022年11月24日发(作者:小升初英语)

《语料检索的速成教程:已经词性赋码语料的检索》

作者:李亮(广东外语外贸大学词典学中心)

2012年8月16日Email:492130980@

AntConc的下载地址/

【步骤1】准备两个txt文件,和AntConc软件;

【步骤2】其中一个txt文件是“干净语料”;

【步骤3】而另一个txt文件是“下划线型”的词性标注(POS,partsofspeech),

adj表示形容词,vt表示及物动词,period表示句号;

【步骤4】运行AntConc,从菜单“File”上选择“OpenFile(s)”;

【步骤5】在“文件选择对话框”中找到即将处理的文件,“打开”它;

【步骤6】它就被加载到AntConc的左侧上方的“待处理的文件列表”了,虽然看

到是因为中文文件名而乱码却不影响我们后续的操作;

【步骤7】假设我们需要检索“形容词+名词”这样的搭配,就输入“*/adj*/noun”,

这里是“星号+斜线+词性标签”的哈;注意adj后面有1个空格;

【步骤8】近距离看看吧,“Windows放大镜”真是帮助了“近视眼”!

【步骤9】“Words”这个选项的前面的小勾勾,可以勾上,可以不够上都不太影响

检索结果的;星号是“通配符”,表示一个或多个字符;例如“b*e”就表示bee或

bake或battle;再例如“*ful”就表示artful或helpful或skillful之类的

【步骤10】点“Start”按钮之后就看到检索结果了,关键部分的单词们都变成了天

蓝色,被染色的也包括了“词性标签”呢

【步骤11】近看一下吧,好美哟

【步骤12】如果不是检索搭配模式,而只是检索某个词性(词类)的话,就直接来

个“星号加斜线加词性标签”;注意哈,“/”这是斜线,而“”这是反斜线哟,上面

偏左或是偏右决定了“正反”,嘻嘻“左倾是反,右倾是正”

【步骤13】近观一下结果吧,蓝蓝的是“被命中的对象们”

【步骤14】如果你不需要看到检索结果有“词类标签”,那么就要进行“Global

Settings”的小小设置哈

【步骤15】“显示,彻底隐藏,隐藏而可被检索”这三项要选择第3个,同时,一定

要把“Hideembeddedtags”的默认的“_”改为“/”,因为我们是“斜线型标注”

【步骤16】设置完,不要忘记点右下角的“Apply”按钮哟,否则你就等于放弃了

这些设置了!

【步骤17】设置完,我们再次确认,是“*/adj”,就是要检索所有的“形容词adjective”,

好,点“Start”

【步骤18】出来了!蓝蓝的形容词们啊,可苦了我的一番心血

【步骤19】到上面为止你已经掌握了“斜线型词类标注”的检索,但是,“XML型

标注”正在崛起,越来越多呢,我们继续学“XML型词类标注”的检索技巧吧……

【步骤20】假设我们仅仅是对fat进行了标注,“”这是XML标注的“起始标

签”,“”这是XML标注的“结尾标签”,前后呼应,真是壮观而科学呀!瞧,

下面我输入的“东东”

【步骤21】输好了,就点“Start”按钮

【步骤22】哇,再次呈现漂亮的检索画面:带XML标签的fat呢

【步骤23】好,上面就是XML型标注的检索的技能,下面是“下划线型词性标注”

的检索讲解,瞧,下面的“东东”

【步骤24】假设我们只是对fat进行了“下划线型标注”,我们同样是输入“*_adj”

这么一个符合当前需求的“特殊字符串”来搜索……星号表示一个或多个字符所组

成的“某个单词”

【步骤25】瞧,关键词+下划线+语料标签都变成了“蓝精灵”

【步骤26】学到这里,但你也许照着做却发现完全不能出来上面的任何结果呢,为

什么?原因极大可能就是“文字编码”不是AntConc所默认所喜欢的“ANSI”!所

以,跟我来,把你的txt文件变一变吧,经过一个小操作你就成功了!

【步骤27】如上图,双击打开你的txt文件,然后点“另存为”

【步骤28】瞧上图的下部的“编码”,你当前是“UTF-8”这种文字编码呢,怎么会

这样呢,别管了,你直接把它变成ANSI吧就能检索了,听我的没错!

【步骤29】你鼠标选择“编码”这个下拉菜单中的第一项“ANSI”,然后点“保存”,

稍等一两秒,就算做好了!

【步骤30】那么,汉语语料用上述方法是否也能搞掂呢?答案是“否”

【步骤31】上图的汉语语料已经被典型的标注为“斜线型词性标注”了,用“*/adj”

检索下,看看效果如何?

【步骤32】天!全乱了,虽然其中的“/adj”与“/noun”等标签依然是“依稀可见”

【步骤33】别急,小意思,设置一下“文字编码”即可“破镜重圆”的

【步骤34】点“GlobalSettings”的“LanguageEncodings”,然后点“Edit”这个

按钮,它弹出一个下拉菜单来……你就如下图的选一下啦

【步骤35】点了“Apply”按钮,确认且退出之后,就在主界面点“Start”按钮……

哇,奇迹出现了,不仅不乱码,连左侧的文件名列表也完全是正常的汉字了!

【步骤36】日语的语料检索却跟英语和汉语都不一样呢,下面我展示一下

【步骤37】上图是一句日语,第二行是对应的汉语句子;下图是用斜线标注,标注

用的汉语标签;

【步骤38】日语检索的特殊性在于你必须提供“UTF-8”的文字编码的txt文件,所

以我们双击打开语料文件之后,点菜单“另存为”;

【步骤39】把默认的“ANSI”的编码,重新选择为“UTF-8”,点保存,然后退出;

【步骤40】启动AntConc,还需要设置一下“LanguageEncoding”,有点熟练了,

对不对?毕竟做了好几遍了

【步骤41】如下图,你选择“uft8”,它是Unicode编码的8位形式,也属于Unicode,

而16位甚至32位的Unicode是未来的大趋势!

【步骤42】如下图,输入我们要检索“名词”……

【步骤43】如下图,日文显示完全正常,以上做法是我的推荐,也许还有其他可行

的做法,欢迎你找找看……

本文发布于:2022-11-24 23:34:04,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/14948.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

下一篇:烟台日语学校
标签:日语速成
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图