首页 > 英文翻译

日语速成

更新时间:2022-11-24 23:34:04 阅读：评论：0

2022年11月24日发(作者：小升初英语)

《语料检索的速成教程：已经词性赋码语料的检索》

作者：李亮（广东外语外贸大学词典学中心）

2012年8月16日Email:492130980@

AntConc的下载地址/

【步骤1】准备两个txt文件，和AntConc软件；

【步骤2】其中一个txt文件是“干净语料”；

【步骤3】而另一个txt文件是“下划线型”的词性标注（POS，partsofspeech），

adj表示形容词，vt表示及物动词，period表示句号；

【步骤4】运行AntConc，从菜单“File”上选择“OpenFile(s)”；

【步骤5】在“文件选择对话框”中找到即将处理的文件，“打开”它；

【步骤6】它就被加载到AntConc的左侧上方的“待处理的文件列表”了，虽然看

到是因为中文文件名而乱码却不影响我们后续的操作；

【步骤7】假设我们需要检索“形容词+名词”这样的搭配，就输入“*/adj*/noun”，

这里是“星号+斜线+词性标签”的哈；注意adj后面有1个空格；

【步骤8】近距离看看吧，“Windows放大镜”真是帮助了“近视眼”！

【步骤9】“Words”这个选项的前面的小勾勾，可以勾上，可以不够上都不太影响

检索结果的；星号是“通配符”，表示一个或多个字符；例如“b*e”就表示bee或

bake或battle；再例如“*ful”就表示artful或helpful或skillful之类的

【步骤10】点“Start”按钮之后就看到检索结果了，关键部分的单词们都变成了天

蓝色，被染色的也包括了“词性标签”呢

【步骤11】近看一下吧，好美哟

【步骤12】如果不是检索搭配模式，而只是检索某个词性（词类）的话，就直接来

个“星号加斜线加词性标签”；注意哈，“/”这是斜线，而“”这是反斜线哟，上面

偏左或是偏右决定了“正反”，嘻嘻“左倾是反，右倾是正”

【步骤13】近观一下结果吧，蓝蓝的是“被命中的对象们”

【步骤14】如果你不需要看到检索结果有“词类标签”，那么就要进行“Global

Settings”的小小设置哈

【步骤15】“显示，彻底隐藏，隐藏而可被检索”这三项要选择第3个，同时，一定

要把“Hideembeddedtags”的默认的“_”改为“/”，因为我们是“斜线型标注”

【步骤16】设置完，不要忘记点右下角的“Apply”按钮哟，否则你就等于放弃了

这些设置了！

【步骤17】设置完，我们再次确认，是“*/adj”，就是要检索所有的“形容词adjective”，

好，点“Start”

【步骤18】出来了！蓝蓝的形容词们啊，可苦了我的一番心血

【步骤19】到上面为止你已经掌握了“斜线型词类标注”的检索，但是，“XML型

标注”正在崛起，越来越多呢，我们继续学“XML型词类标注”的检索技巧吧……

【步骤20】假设我们仅仅是对fat进行了标注，“”这是XML标注的“起始标

签”，“”这是XML标注的“结尾标签”，前后呼应，真是壮观而科学呀！瞧，

下面我输入的“东东”

【步骤21】输好了，就点“Start”按钮

【步骤22】哇，再次呈现漂亮的检索画面：带XML标签的fat呢

【步骤23】好，上面就是XML型标注的检索的技能，下面是“下划线型词性标注”

的检索讲解，瞧，下面的“东东”

【步骤24】假设我们只是对fat进行了“下划线型标注”，我们同样是输入“*_adj”

这么一个符合当前需求的“特殊字符串”来搜索……星号表示一个或多个字符所组

成的“某个单词”

【步骤25】瞧，关键词+下划线+语料标签都变成了“蓝精灵”

【步骤26】学到这里，但你也许照着做却发现完全不能出来上面的任何结果呢，为

什么？原因极大可能就是“文字编码”不是AntConc所默认所喜欢的“ANSI”！所

以，跟我来，把你的txt文件变一变吧，经过一个小操作你就成功了！

【步骤27】如上图，双击打开你的txt文件，然后点“另存为”

【步骤28】瞧上图的下部的“编码”，你当前是“UTF-8”这种文字编码呢，怎么会

这样呢，别管了，你直接把它变成ANSI吧就能检索了，听我的没错！

【步骤29】你鼠标选择“编码”这个下拉菜单中的第一项“ANSI”，然后点“保存”，

稍等一两秒，就算做好了！

【步骤30】那么，汉语语料用上述方法是否也能搞掂呢？答案是“否”

【步骤31】上图的汉语语料已经被典型的标注为“斜线型词性标注”了，用“*/adj”

检索下，看看效果如何？

【步骤32】天！全乱了，虽然其中的“/adj”与“/noun”等标签依然是“依稀可见”

【步骤33】别急，小意思，设置一下“文字编码”即可“破镜重圆”的

【步骤34】点“GlobalSettings”的“LanguageEncodings”，然后点“Edit”这个

按钮，它弹出一个下拉菜单来……你就如下图的选一下啦

【步骤35】点了“Apply”按钮，确认且退出之后，就在主界面点“Start”按钮……

哇，奇迹出现了，不仅不乱码，连左侧的文件名列表也完全是正常的汉字了！

【步骤36】日语的语料检索却跟英语和汉语都不一样呢，下面我展示一下

【步骤37】上图是一句日语，第二行是对应的汉语句子；下图是用斜线标注，标注

用的汉语标签；

【步骤38】日语检索的特殊性在于你必须提供“UTF-8”的文字编码的txt文件，所

以我们双击打开语料文件之后，点菜单“另存为”；

【步骤39】把默认的“ANSI”的编码，重新选择为“UTF-8”，点保存，然后退出；

【步骤40】启动AntConc，还需要设置一下“LanguageEncoding”，有点熟练了，

对不对？毕竟做了好几遍了

【步骤41】如下图，你选择“uft8”，它是Unicode编码的8位形式，也属于Unicode，

而16位甚至32位的Unicode是未来的大趋势！

【步骤42】如下图，输入我们要检索“名词”……

【步骤43】如下图，日文显示完全正常，以上做法是我的推荐，也许还有其他可行

的做法，欢迎你找找看……

本文发布于:2022-11-24 23:34:04，感谢您对本站的认可！

本文链接：http://www.wtabcd.cn/fanwen/fan/90/14948.html

上一篇：披头士经典歌曲

下一篇：烟台日语学校

标签：日语速成

留言与评论（共有 0 条评论）