python爬虫respon得到乱码

更新时间:2023-07-01 06:50:03 阅读: 评论:0

python爬⾍respon得到乱码
阿甘正传英文影评
这个问题折磨了我⼏乎⼀天,好在我倔强地不停搜索解决⽅法。
“终于等到你,还好我没放弃。”
以下为代码,爬取汉字“⼀”的篆书字,得到⽹页源代码:
import requests
#使⽤post⽅法爬取⽹页信息
url = '/Builder'
data = {'Content':urllib2.quote('⼀'),
'FontInfoId':Sort}
姜饼小人
headers = {'content-type': 'chart=utf8'}关于祖国的演讲稿
respon = requests.post(url = url, data = data, headers=headers)
t)重庆造价师培训
过程:
当我使⽤get⽅法不传⼊参数时,打印其得到的⽹页的编码格式。
url = '/Builder'
美剧时间表respon = (url)
互质数的定义ding)
>>>utf-8
得到结果:utf-8
但是当我⽤post⽅法传⼊参数进去,打印其得到的⽹页的编码格式。
url = '/Builder'发票管理办法
pascaldata = {'Content':urllib2.quote(wd),'FontInfoId':Sort}
respon = requests.post(url=url,data = data)
ding)
>>>None
得到结果:None
工地管理制度百思不得其解,直到看到⼤神的解决⽅法,明⽩了当我输⼊数据得到响应后的⽹页源码时,它并未指定编码⽅式。
全面搜寻圣诞狗狗“官⽅⽂档的意思就是,如果requests没有发现http headers中的chart,就会使⽤默认的IOS-8859-1(也就是我们常说的latin-1,但是我们⼀般的⽹页使⽤的chart其实是utf-8)这会导致什么结果呢?”
详细的解释⼤家可以进⼊上⾯链接查看。总⽽⾔之就是导致编码、解码不正确,因此出现乱码。
所以本⽂重点是
使⽤headers = {'content-type': 'chart=utf8'},
通过配置header 设置编码解决问题。

本文发布于:2023-07-01 06:50:03,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/1071687.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:得到   编码   还好   爬取   打印
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图