用AntConc处理中文

更新时间:2023-05-05 09:13:46 阅读：评论：0

用AntConc处理中文concordance, wordlist, N-gram

不知道laohong用的什么宝贝！

我的方法是这样的：

我刚才是把Token Definition里面的letter token class 下面的全部选中，再把Chine Encoding 里面的第一项选中就行了，下面的我想就不用我来说了。另外，我发现按照我的下午选项，其实没有进行分词的中文语料也是可以进行全文检索和显示的。

对不起各位，早上贴完帖子就搬家去了，累到现在才回家打开电脑。这里是大家关心的我是如何用AntConc处理中文的：

1、文本格式：

大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文？为了能

在同一个文本中显示好中文简体、繁体和英文，我把所有文本都转存成UTF-8了。也就是说，我用AntConc 处理的语料文本是存成UTF-8格式的，不是GB或Big5。另外，中文文本是

经过分词处理的。请搜索本站找相关的自动分词和词性标注工具：SegT ag、ICTCLAS、NEUCSP、Hylanda、WinAT等。

2、设置An汪曾祺经典语录 tConc：

在Global Settings 下的Language Encodings，我没有选Chine Encodings下的选项，而是选择了Unicode Encodings 下的Unicode(UTF-8)。其它设置可以用默认的。

3、功能：

这样设置后AntConc的功能就全部可以处理中文文本了，也就是说大家这样就可以用AntConc 来处理分词后的中文的Concordance，Wordlist，Cluster，N-Gram等等了。Wordsmith 终于有了一个免费的竞争对手！

请问如何显示卡方检验和互信息的值

1.卡方检验是用做key words，需要一个参照语料库的wordlist和一个要分析语料库的

wordlis.

2.在Tool prefere日记本封面 nce下选择Collocates preference 然后选择show statistics measure

下的MI值或者T值然后再选择show collocate即可.

3.2.1w 是最新版本，应该不是版本问题。如果使用的是英文系统，查看你的语言和区域设置搞对了没有；如果设置没问题，或者本来就是中文系统，就检查是否做到了下面几点（都是本thread 前面讨论过的，看来你需要读第三遍啊）：

1、设置AntConc的Global Settings：

Global Settings, Language Encodings, Edit, choo Unicode Encodings, Unicode (utf8), A胆结石中药方剂 pply.

2、对文本进行分词处理或汉字加空格：

要想得到wordlist或character list，就得先把汉语文本分词处理，具体关于分词工具及其使

用可在本坛查找。也可以简单地给每两个汉字间加个空格，从而达到检索目的。

3、转存文本成utf-8格式：

用Notepad或其它纯文本编辑软件如EditPlus等打中途岛海战开要检索的文本，然后转存，选择编码

Encode为U下午吃什么 TF-8。

4、使用AntConc得到Word节约资源手抄报 list或Concordances。Good luck!

本文发布于:2023-05-05 09:13:46，感谢您对本站的认可！

标签：文本分词处理进行设置打开检验版本

留言与评论（共有 0 条评论）