python爬虫respon得到乱码

更新时间:2023-07-01 06:50:03 阅读：评论：0

python爬⾍respon得到乱码

阿甘正传英文影评

这个问题折磨了我⼏乎⼀天，好在我倔强地不停搜索解决⽅法。

“终于等到你，还好我没放弃。”

以下为代码，爬取汉字“⼀”的篆书字，得到⽹页源代码：

import requests

#使⽤post⽅法爬取⽹页信息

url = '/Builder'

data = {'Content':urllib2.quote('⼀'),

'FontInfoId':Sort}

姜饼小人

headers = {'content-type': 'chart=utf8'}关于祖国的演讲稿

respon = requests.post(url = url, data = data, headers=headers)

t)重庆造价师培训

过程：

当我使⽤get⽅法不传⼊参数时，打印其得到的⽹页的编码格式。

url = '/Builder'

美剧时间表respon = (url)

互质数的定义ding)

>>>utf-8

得到结果：utf-8

但是当我⽤post⽅法传⼊参数进去，打印其得到的⽹页的编码格式。

url = '/Builder'发票管理办法

pascaldata = {'Content':urllib2.quote(wd),'FontInfoId':Sort}

respon = requests.post(url=url,data = data)

ding)

>>>None

得到结果：None

工地管理制度百思不得其解，直到看到⼤神的解决⽅法，明⽩了当我输⼊数据得到响应后的⽹页源码时，它并未指定编码⽅式。

全面搜寻圣诞狗狗“官⽅⽂档的意思就是，如果requests没有发现http headers中的chart，就会使⽤默认的IOS-8859-1(也就是我们常说的latin-1，但是我们⼀般的⽹页使⽤的chart其实是utf-8)这会导致什么结果呢？”

详细的解释⼤家可以进⼊上⾯链接查看。总⽽⾔之就是导致编码、解码不正确，因此出现乱码。

所以本⽂重点是

使⽤headers = {'content-type': 'chart=utf8'}，

通过配置header 设置编码解决问题。

本文发布于:2023-07-01 06:50:03，感谢您对本站的认可！

标签：得到编码还好爬取打印

留言与评论（共有 0 条评论）