使用爬虫时,怎么分析网页结构

更新时间:2023-07-07 13:18:40 阅读: 评论:0

准确数
使⽤爬⾍时,怎么分析⽹页结构
爬⾍,运⾏的本质就是模拟⼈访问⽹页,只不过不需要通过⽹页界⾯进⾏操作。
因此,要写出爬⾍程序,我们就需要了解⽹页的结构。
量天尺
例如,现在要⽤爬⾍来替代我们“访问⽹页——输⼊需翻译的词——点击翻译按钮——得出结果”的操作过程,那我们需要先登录⽬标界⾯,分析⽹页结构。
登录后,爱词霸的翻译界⾯如下:
我们按下键盘上的F12,即可打开chrome的开发者⼯具,通过这个⼯具,我们就可以对⽬标⽹页及其按钮进⾏分析。
分析⽹页过程中,我们最常⽤的就是两个页签Elements和Network。
Elements展⽰的是⽹页上所有元素的HTML代码,例如我们把⿏标移⾄【翻译】按钮,则在Elements对应的代码中就会标⽰出按钮对应的代码,如图中蓝⾊⾏的代码。
Network展⽰的是我们与服务器之间的交互内容,包括我们访问的URL、我们传递给服务器的数据(如账号、密码)、服务器返回的内容等。
系统菜单但⼀般我们进⼊⽹站直接打开开发者⼯具时,如果没有做任何⽹页操作,那么Network的内容是⼀⽚空⽩的,这是因为我们还没有开始跟⽹页进⾏交互。
现在我们可以输⼊需翻译的内容,并点击【翻译】按钮。就可以看到Network中开始出现内容,点击出现的内容就会看到以下内容。
我们主要关注Headers页签⾥的内容,⾥⾯就包括我们传递给服务器的内容以及服务器返回内容的简要信息。
重点介绍⾥⾯的⼏个部分。
1. Request URL:这是我们点击翻译后,真正访问的⽹址,所以这是我们写爬⾍真正要访问的URL
2. Ur-Agent:这是我们访问这个⽹站所⽤的⾝份标识,我们在写爬⾍时最好在requests的headers
参数⾥带上这个标识
3. Accept:这是服务器返回内容的简要信息
4. Form Data:这是我们传递给服务器的内容,可以发现,这就是我们填写的需翻译内容,以及翻译的源语种和⽬标语种。
学会分析以上内容之后,就能对⼀些简单⽹页进⾏⼀些简单分析,并根据分析结果写出爬⾍程序。
以下附上我的爬⾍代码
#爬取爱词霸翻译⽹站,调⽤爬⾍即可实现翻译功能
import requests大雁塔导游词
#导⼊json⽤于将⽹页返回数据转为⼈能看懂的json格式
谈姓
import json
#声明爬⾍访问⽹站时所使⽤的浏览器⾝份
headers={'Ur-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
#声明需要爬取的url
url='/ajax.php?a=fy'
奉献的歌词#声明需要发送给服务器的信息,word指需要翻译的词
word=input('请输⼊需要翻译的词:')
data={
不忘初心牢记使命
'f':'zh',
't':'en',
'w':word
}
#调⽤⽅法访问⽬标⽹址
respon=requests.post(url=url,headers=headers,data=data)
respon_json=json.t)['content']['word_mean']
print('翻译结果如下:')
for i in respon_json:
print(i)
当兵体检项目标准
print('---------------翻译结束-------------------')

本文发布于:2023-07-07 13:18:40,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1071644.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:内容   翻译   需要
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图