用AntConc处理中文

更新时间:2023-05-05 09:13:46 阅读: 评论:0

用AntConc处理中文concordance, wordlist, N-gram
不知道laohong用的什么宝贝!
我的方法是这样的:
我刚才是把Token Definition里面的letter token class 下面的全部选中,再把Chine Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。另外,我发现按照我的下午选项,其实没有进行分词的中文语料也是可以进行全文检索和显示的。
对不起各位,早上贴完帖子就搬家去了,累到现在才回家打开电脑。这里是大家关心的我是如何用AntConc处理中文的:
1、文本格式:
大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文?为了能
在同一个文本中显示好中文简体、繁体和英文,我把所有文本都转存成UTF-8了。也就是说,我用AntConc 处理的语料文本是存成UTF-8格式的,不是GB或Big5。另外,中文文本是
经过分词处理的。请搜索本站找相关的自动分词和词性标注工具:SegT ag、ICTCLAS、NEUCSP、Hylanda、WinAT等。
2、设置An汪曾祺经典语录 tConc:
在Global Settings 下的Language Encodings,我没有选Chine Encodings下的选项,而是选择了Unicode Encodings 下的Unicode(UTF-8)。其它设置可以用默认的。
3、功能:
这样设置后AntConc的功能就全部可以处理中文文本了,也就是说大家这样就可以用AntConc 来处理分词后的中文的Concordance,Wordlist,Cluster,N-Gram等等了。Wordsmith 终于有了一个免费的竞争对手!
请问如何显示卡方检验和互信息的值
1.卡方检验是用做key words,需要一个参照语料库的wordlist和一个要分析语料库的
wordlis.
2.在Tool prefere日记本封面 nce下选择Collocates preference 然后选择show statistics measure
下的MI值或者T值然后再选择show collocate即可.
3.2.1w 是最新版本,应该不是版本问题。如果使用的是英文系统,查看你的语言和区域设置搞对了没有;如果设置没问题,或者本来就是中文系统,就检查是否做到了下面几点(都是本thread 前面讨论过的,看来你需要读第三遍啊):
1、设置AntConc的Global Settings:
Global Settings, Language Encodings, Edit, choo Unicode Encodings, Unicode (utf8), A胆结石中药方剂 pply.
2、对文本进行分词处理或汉字加空格:
要想得到wordlist或character list,就得先把汉语文本分词处理,具体关于分词工具及其使
用可在本坛查找。也可以简单地给每两个汉字间加个空格,从而达到检索目的。
3、转存文本成utf-8格式:
用Notepad或其它纯文本编辑软件如EditPlus等打中途岛海战 开要检索的文本,然后转存,选择编码
Encode为U下午吃什么 TF-8。
4、使用AntConc得到Word节约资源手抄报 list或Concordances。Good luck!

本文发布于:2023-05-05 09:13:46,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/96502.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   分词   处理   进行   设置   打开   检验   版本
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图