Python自动翻译英语论文PDF(三十九)

更新时间:2023-08-03 01:53:20 阅读: 评论:0

Python⾃动翻译英语论⽂PDF(三⼗九)涉及技术:
1、Python读取PDF⽂本
2、pandas的读取csv、多数据merge、输出Excel
2、Python正则表达式实现英⽂分词
1. 读取PDF⽂本内容¶
!pip install -i pypi.tuna.tsinghua.edu/simple pdfplumber
import pdfplumber
def read_pdf(pdf_fpath):
pdf = pdfplumber.open(pdf_fpath)
二十八天page_conts = []
for page in pdf.pages:
gta5炒股
page_conts.act_text())
pdf.clo()
return " ".join(page_conts)
pdf_fpath = "D:/tmp/Wide & Deep Learning for Recommender Systems.pdf"
pdf_cont = read_pdf(pdf_fpath)
print(pdf_cont[:2000])
2. 读取英语-汉语翻译词典⽂件
import pandas as pdar设备
# 注意:stardict.csv的地址需要替换成你⾃⼰的⽂件地址
df_dict = pd.read_csv("D:/tmp/ECDICT-master/stardict.csv")
df_dict.sample(10).head()
# 把word、translation之外的列扔掉
df_dict = df_dict[["word", "translation"]]
df_dict.head()
3. 英⽂分词和数据清洗
# 分词
import re
word_list = re.split("""[ ,.\(\)/\n|\-:=\$\["']""", pdf_cont)
word_list[:10]
# 数据清洗
word_list_clean = []
for word in word_list:
word = str(word).lower().strip()
# 过滤掉空词、数字、单个字符的词、停⽤词
利息保障倍数公式if not word or word.isnumeric() or len(word)<=1:脚底有痣的男人
continue
word_list_clean.append(word)
word_list_clean[:20]
4. 分词结果构造成⼀个DataFrame
df_words = pd.DataFrame({
"word": word_list_clean
})
可行性分析df_words.head()
# 统计词频
df_words = (
df_words
.groupby("word")["word"]
.agg(count="size")
.ret_index()
.sort_values(by="count", ascending=Fal)
)
df_words.head(10)
5. 和单词词典实现merge
df_merge = pd.merge(
left = df_dict,
酉矩阵right = df_words,
left_on = "word",送教下乡
right_on = "word"
)
df_merge.sample(10)
df_merge.shape
6. 存⼊Excel
_excel("./39. pdf_chine_english.xlsx", index=Fal)

本文发布于:2023-08-03 01:53:20,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1127188.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   分词   数字   读取   词典   实现
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图