各省政府工作报告词频统计+数据处理

更新时间:2023-07-18 00:10:41 阅读: 评论:0

各省政府⼯作报告词频统计+数据处理
背景是这样的,需要统计各省各年的政府⼯作报告中关于能源环境的词频,以论证该省对能源环境的重视程度。
⼯作报告格式均为txt,txt⽂档前四位需为年份数字(便于后续统计);
⽂件路径为’./XX省/2020年⼯作报告.txt’;
txt⽂件编码应为utf-8。
输出为excel格式如下:
province20002001 (2021)
湖南省词频………
河北省词频………
XX省…………
…………这⾥需要⽤到以下⼏个包:
# 产⽣路径,⽤于遍历
import os
import os.path
# decode open txt
import codecs
# 分割⽂档
import jieba
import pandas as pd
# 模糊匹配
含蓄隽永# 参见:blog.csdn/AlexTan_/article/details/107319603
import difflib
钢笔英语怎么读
⾸先定义参数类:
# 参数设置
class Config:
def__init__(lf):
lf.path ='.\\text\\'# 根⽬录
lf.provinces =['湖南省','河北省']# 根⽬录下的⼦⽬录
lf.words=['能源','煤']# 需要统计的词
lf.date_range=[2000,2021]# 数据年限跨度,闭区间
lf.cutoff=0.6# 模糊匹配⽐例,越⼤精度越⾼,0.6时‘能源’能识别‘能源资源’
config = Config()
分割统计函数:
# 词频统计
def word_freq():
# 创建存储df
局部通风
df=pd.DataFrame(columns=list(range(config.date_range[0],config.date_range[1]+1)),
index=range(len(config.provinces)))
df.inrt(0,'province',0)
# 遍历根⽬录
for i in range(len(config.provinces)):
df['province'][i]=config.provinces[i]
第一师范学院root_path = config.path + config.provinces[i]
# 遍历root_path中全部⽂件
# root 当前⽂件夹路径
# dirs 内容是该⽂件夹中所有⽂件夹的名字
# files 内容是该⽂件夹中所有的⽂件
for root,dirs,files in os.walk(root_path):
for name in files:
num_words=0
filepath = os.path.join(root,name)
print(filepath)
f=codecs.open(filepath,'r',encoding='UTF-8')# open txt
六下语文
ad()# read txt
夏日纪事g=jieba.lcut(filecontent)# 分割
# 词频统计
for word in config.words:
# 模糊匹配
lect__clo_matches(word, g,len(g),cutoff=config.cutoff)
# 剔除负向相似匹配,即被选取字段长度⼀定要⼤于等于⽬标字段长度
lect_word2=list(lect_word1[j]for j in range(len(lect_word1))if len(lect_word1[j])>=len(word))                    num_word =len(lect_word2)
# 查看区别
#print(lect_word1)
#print(lect_word2)
#print(len(lect_word1))
#print(len(lect_word2))
num_words+=num_word
df.loc[i,int(name[0:4])]=num_words # 在excel中填⼊词频统计
f.clo()# clo txt
# 存储df
writer=pd.ExcelWriter('./words_freq.xlsx')
<_excel(writer,index=Fal)
writer.save()
writer.clo()
run:乳腺癌原因
水箱漏水%%time
word_freq()

本文发布于:2023-07-18 00:10:41,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1085659.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:统计   词频   件夹   能源
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图