4科技资讯SCIENCE&TECHNOLOGYINFORMATION
科技资讯2021NO.16
SCIENCE&TECHNOLOGYINFORMATION信息技术
DOI:10.16661/.1672-3791.2106-5042-6079
基于网络爬虫的单词翻译器设计与研究
周游宇孙洪波梅良才*
(北京理工大学珠海学院广东珠海519088)
摘要:该文基于机器学习中的网络爬虫技术提出了一种单词翻译器的设计与研究流程。首先,该文对Iciba网
站进行爬虫,经过前期url分析,编写定向页面requests爬虫,得到单词释义和例句。其次,通过一个查询单词的
通用程序框架,编写requests定向爬虫,实时获得最新的词语解释和例句。最后,该文设计了一个GUI窗体界
面,用于展示相关结果,具有较好的实用性和有效性。该文提出的研究方法是机器学习相关研究领域的一个扩
充,且该研究结果给教育相关领域提供了一个有效的应用产品。
关键词:requests框架网络爬虫GUI界面编程Python
中图分类号:TP391文献标识码:A文章编号:1672-3791(2021)06(a)-0004-03
DesignandRearchofWordTranslatorBadonWeb
Crawler
ZHOUYouyuSUNHongboMEILiangcai
*
(BeijingInstituteofTechnology,Zhuhai,Zhuhai,GuangdongProvince,519088China)
Absrtact:Thispaperprentsthedesignandrearchflowofawordtranslatorbadonthewebcrawler
y,thispapercrawledIcibawebsite,compileddirectionalpage
requestscrawlerthroughearlyurlanalysis,compiledthedirectedpagerequestscrawler,gottheword
ly,throughageneralprogramframeworkforqueryingwords,
writerequestsdirectionalcrawlertoobtainthelatestwordinterpretationandexamplentencesinreal
y,aGUIforminterfaceisdesignedtoshowtherelevantresults,whichhasgoodpracticability
earchmethodpropodinthispaperisanextensionoftherearchfieldrelated
tomachinelearning,andtherearchresultsprovideaneffectiveapplicationproductforthefieldrelated
toeducation.
KeyWords:Requestsframework;Webcrawler;GUIinterfaceprogramming;Python
基金项目:该文由北京理工大学珠海学院大数据研究中心(项目编号:XJ-2018-05)及广东高校省级特色创新
项目(项目编号:2019KTSCX217)支持。
作者简介:周游宇(1991—),男,硕士,助教,研究方向为机器学习及深度学习应用、工业统计管制图理论及应用。
孙洪波(1964—),男,硕士,教授,研究方向为机器学习理论及应用、再生核算法理论及应用。
通信作者:梅良才(1983—),男,硕士,讲师,研究方向为机器学习理论及应用、再生核算法理论及应用,E-mail:
mathlcmei@。
网络爬虫是从互联网搜集数据的一种工具,众多
学者利用网络爬虫获取研究数据[1]。机器学习是一种
从现有数据中找到数据特征之间变化规律的一门科
学,学者们在翻译器设计、数据预测等多种交叉领域
都用到了机器学习方法[2-4]。另外,市场上大多数查询
单词App的桌面版功能都不够方便快捷,基于此现状,
Copyright©博看网htsRerved.
5科技资讯SCIENCE&TECHNOLOGYINFORMATION
科技资讯2021NO.16
SCIENCE&TECHNOLOGYINFORMATION信息技术
该文主要基于以下任务来设计单词查询App。
(1)对于网页架构的前期url分析,找到相应的单
词释义和例句。
(2)对于html框架中的具体label中的内容进行编
程设计爬取。
(3)设计GUI界面进行单词释义和例句的展示。
1包的安装与描述
因为要GUI界面编程和网络爬虫,因此需要下
列包。
fromPyQt5importQtCore,QtGui,QtWidgets
frombs4importBeautifulSoup
importQRect
importrequests
ets.
importQApplication,QWidget
importsys
importtrans
2爬虫解决过程
Iciba的域名为/,在域名后加
word?w=,再加入所要搜索的单词,如book。显示出如
下网址:/word?w=book,即可完成
搜索,url见图1。
由图1可知,单词释义都在class=Mean_
part_1RA2V的ul标签下,每一个li标签里带有一行释
义;li标签下的i标签带有此行释义的词性,span标签
为汉语解释。同理,例句在class=NormalSentence_
ntence_3q5Wk的div标签下。三个p标签分别为英语
例句、汉语翻译、出处。
至此,笔者写出爬虫的主要框架具体如下所示。
r=(url)
try:
soup=BeautifulSoup(,'')
meaning=('ul',class_='Mean_
part_1RA2V').children
forliinmeaning:
text+=
text+=''
en:
text+=
text+=''
text+='n'
text+='n例句:n'
l('div',class_='NormalSenten
ce_ntence_3q5Wk')[:9]:
ps=en
i=0
forpinps:
ifi==2:
break
text+=
text+='n'
i+=1
text+='n'
t(text)
except:
t('搜索失败')
利用try-except语句用一些乱七八糟搜索的
过滤。
3GUI界面解决过程
GUI界面能很直观地展示搜集结果,是展示网络
爬虫数据的好工具[5-6]。利用类的定义和使用的方法,
笔者根据官网例子写出的GUI如下所示。
图1网络爬虫与HTML代码分析图
Copyright©博看网htsRerved.
6科技资讯SCIENCE&TECHNOLOGYINFORMATION
科技资讯2021NO.16
SCIENCE&TECHNOLOGYINFORMATION信息技术
fromPyQt5importQtCore,QtGui,QtWidgets
frombs4importBeautifulSoup
importQRect
importrequests
classUi_Form(object):
deftupUi(lf,Form):
ectName("Form")
(412,800)
s=utton(Form)
metry((300,10,
93,28))
ectName("Buttons")
it=dit(Form)
metry((10,10,
271,31))
ectName("lineEdit")
=(Form)
metry((10,50,381,
711))
t("")
ectName("label")
metry(QRect(10,50,381,711))
dWrap(True)
gnment(op)
t(cked)
slateUi(Form)
tSlotsByName(Form)
defsOnClicked(lf):
text='释义:n'
url_root='/word?w='
url=url_root+()
r=(url)
try:
soup=BeautifulSoup(,'')
meaning=('ul',class_='Mean_
part_1RA2V').children
forliinmeaning:
text+=
text+=''
en:
text+=
text+=''
text+='n'
text+='n例句:n'
l('div',class_='NormalSenten
ce_ntence_3q5Wk')[:9]:
ps=en
i=0
forpinps:
ifi==2:
break
text+=
text+='n'
i+=1
text+='n'
t(text)
except:
t('搜索失败')
defretranslateUi(lf,Form):
_translate=ate
dowTitle(_translate("Form","Form"))
t(_translate("Form","搜词"))
4总结与评价
(1)创新点。运用的GUI界面编程,程序有了界面
可以和用户互动;根据网络爬虫可快速制作出编译器,
无需自己的词典库;界面自适应,长出界面的词句会自
动换行;词性、释义、例句,一应俱全。
(2)不足和改进。查询需要联网,没有自己的
数据备份。
该款App可以用于日常英语学习,随时查询,没有
多余功能,程序小巧,查询到的释义例句齐全。
参考文献
[1]朱策,徐宏,林新,等.基于网络爬虫的能源政策监测
[J].科技创新导报,2019,16(35):141-142.
[2]杨浩波.神经机器翻译关键技术研究与应用[D].成
都:电子科技大学,2020.
[3]梁娟.英语翻译器语音识别系统的设计及功能实现
[J].微型电脑应用,2018,34(12):46-48.
[4]季春元,熊泽金,侯艳芳,等.基于人机交互的网
络化智能翻译系统设计[J].自动化与仪器仪
表,2019(8):25-28.
[5]刘江,刘国玺,张雁,等.基于多线程和翻译的网络爬
虫鸟类音频数据采集系统设计与实现[J].现代计算
机,2018(30):85-88,92.
[6]明日科技.Python从入门到精通[M].北京:清华大学
出版社,2018.
Copyright©博看网htsRerved.
本文发布于:2022-11-23 16:07:23,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/6737.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |