⽇语词频分析——mecab使⽤
说明家用投影幕布
本篇是基于python下mecab使⽤,系统为windows,python是anaconda下的
如果你需要使⽤基于python下的mecab,你需要安装python,哪个系统环境下都可以,在安装mecab
如果你需要安装python可见
如果你需要安装mecab可见
王冕读书如果你只需要简单的进⾏⽇语分词可以下载下⾯这个软件
链接: /s/1Xz3ZbuEItpEqvdUGZRnM9Q
提取码: mae9
点头呼吸什么是mecab
mecab 是基于CRF 的⼀个⽇⽂分词系统,代码使⽤ c++ 实现, 基本上内嵌了 CRF++ 的代码, 同时提
供了多种脚本语⾔调⽤的接⼝ (python, perl, ruby 等).整个系统的架构采⽤通⽤泛化的设计,⽤户可以通过配置⽂件定制CRF训练中需要使⽤的特征模板。
mecab的使⽤
有美堂暴雨
import os
#输出结果小狗画画图片
'D:\\PythonFlie'
import MeCab
import pandas as pd
高中生学习方法#导⼊对应的库
file_in =open('',encoding ="utf-8")#注意这边的编码格式,与所要分析的⽂件编码格式要对应
f_line = ad()
mecab_tagger = MeCab.Tagger("-Ochan")
result=mecab_tagger.par(f_line)
my_list =[]
for i in result.splitlines()[:-1]:
i = i.split()
try:
v =(i[2], i[1], i[-1])
except:
pass
my_list.append(v)
word_dict ={}
word_sub ={}
社区故事word_pro={}
for i in my_list:
if i[-1].split('-')[0]not in['助詞','記号']:
if i[0]not in word_dict:
word_dict[i[0]]=1
word_sub[i[0]]=i[-1]
word_pro[i[0]]=i[1]
el:
word_dict[i[0]]=word_dict[i[0]]+1
df =pd.DataFrame({"fre":word_dict,'pro':word_pro,'sub':word_sub})
df=df[df.fre>1]
df=df.sort_values(by=['fre'],ascending=Fal)
<_csv('雅虎词频分析.txt',encoding ="utf-8")#这⾥与上⾯的编码格式要对应
插句题外话
由于本⼈刚刚学完⽇语五⼗⾳,好多⽇语单词都不太认识,即使将⽇语词频弄出来,还要将这些⽇语词汇翻译成中⽂,以便后续更好的分析,所以下⾯讲讲⽇语翻译软件的使⽤体验
由于本⼈⽇语不精通,故不对准确性做评价,主要从分析的速度、处理⽇语⽂件的⼤⼩来评价
主要是两款软件:Google翻译、在线⽂档翻译器强制恢复出厂设置
⽇语翻译软件
Google翻译
可以直接翻译⽂档,可以翻译⽂档的类型挺多的,翻译的速度也⾮常可,基本上不到1分钟
不能翻译特别⼤的⽂件,基本上不到1M⼤⼩的⽂件可以翻译;太⼤了会卡到翻译不出来
直接⽹页端进⾏翻译,不能安装软件
但是不能同⼀时间段翻译很多次,会被禁
在线⽂档翻译器
可以直接翻译⽂档,可以翻译⽂档的类型挺多的,主要是能翻译⼏⼗M的⽂件,速度基本上也在5分钟之内
如果翻译⽂件⽐较⼤的话,强⼒推荐这个软件
同时⽹页端的翻译软件,不⽤安装软件
链接