Wireshark抓包分析HTTP请求、响应报⽂格式
⽂章⽬录
HTTP 协议再规范⽂档⾥详细定义了报⽂的格式,规定了组成部分,解析规则,还有处理策略,所以可以在 TCP/IP 层之上实现丰富灵活的功能,例如连接控制、缓存管理、数据编码、内容协商
报⽂结构
知识产权法律法规HTTP 协议是⼀个”纯⽂本“的协议,在实际传输的数据前要附加⼀些头数据,不过头数据都是ASCII码的⽂本,可以很容易地⽤⾁眼阅读,不⽤借助程序解析也能够看懂
HTTP协议的请求报⽂和响应报⽂的结构基本相同,由三⼤部分组成:
起始⾏(start line)描述请求或响应的基本信息
头部字段集合(header)使⽤ key-value 形式更详细说明报⽂
消息正⽂(entity)实际传输的数据,不⼀定是纯⽂本,可以是图⽚、视频等⼆进制数据
其中前两部分起始⾏和头部字段经常合称为”请求头“或”响应头“,消息正⽂⼜称为”实体“,但与”header“
对应,很多时候就直接称为”body“
HTTP协议规定报⽂必须有header,但可以没有body,⽽且在header之后必须要有⼀个“空⾏”,也就是“CRLF”,⼗六机制
的“0D0A”
所以,⼀个完整的HTTP报⽂就像下图的这样,注意在header和body之间有⼀个“空⾏”
接下来看获取的 GET 请求报⽂信息
在这个浏览器发出的请求报⽂⾥,第⼀⾏“GET / HTTP/1.1”就是请求⾏,⽽后⾯的“Host”“Connection”等等都属于header,报⽂的最后是⼀个空⽩⾏结束,没有body
其实浏览器发送GET请求的时HTTP报⽂经常是只有header⽽没body。,虽然HTTP协议对header的⼤⼩没有做限制,但各个Web服务器都不允许过⼤的请求头,因为头部太⼤可能会占⽤⼤量的服务器资源,影响运⾏效率
HTTP 请求报⽂的请求⾏
请求报⽂⾥的起始⾏也就是请求⾏(request line),简要描述了客户端想要如何操作服务器端的资源
请求⾏由三部分构成:
请求⽅法:是⼀个动词,如GET/POST,表⽰对资源的操作
请求⽬标:通常是⼀个URI,标记了请求⽅法要操作的资源
版本号:表⽰报⽂使⽤的HTTP协议版本
这三个部分通常使⽤空格(space)来分隔,最后要⽤CRLF换⾏表⽰结束
还是⽤Wireshark抓包的数据来举例:
GET / HTTP/1.1
在这个请求⾏⾥,“GET”是请求⽅法,“/”是请求标,“HTTP/1.1”是版本号,把这三部分连起来,意思就是“服务器你好,我想获取⽹站根⽬录下的默认⽂件,我⽤的协议版本号是1.1腰腹训练
请求⽅法
蒂姆·伯纳斯-李最初设想的是要⽤HTTP协议构建⼀个超链接⽂档系统,使⽤URI来定位这些⽂档,也就是资源。那么,该怎么在协议⾥操作这些资源呢?
所以,就出现了“请求⽅法”。实际含义就是客户端发出了⼀个“动作指令”,要求服务器端对URI定位的资源执⾏这个动作
HTTP/1.1规定了⼋种⽅法,单词都必须是⼤写的形式:
GET:获取资源,可理解为读取或下载数据
二十用英语怎么读HEAD:获取资源的元信息
POST:向资源提交数据,相当于写⼊或上传数据
PUT:类似 POST
DELETE:删除资源
CONNECT:建⽴特殊的连接隧道
OPTIONS:列出可对资源实⾏的⽅法
TRACE:追踪请求-响应的传输路径
有点像对⽂件或数据库的“增删改查”操作,只不过这些动作操作的⽬标不是本地资源,⽽是远程服务器上的资源,所以只能由客户端“请求”或者“指⽰”服务器来完成
既然请求⽅法是⼀个“指⽰”,那么客户端⾃然就没有决定权,服务器掌控着所有资源,也就有绝对的决策权⼒。它收到HTTP请求报⽂后,看到⾥⾯的请求⽅法,可以执⾏也可以拒绝,或者改变动作的含义,毕竟HTTP是⼀个“协议”,两边都要“商量着来”
⽐如,发起了⼀个GET请求,想获取“/orders”这个⽂件,但这个⽂件保密级别⽐较⾼,不是谁都能看的,服务器就可以有如下的⼏种响应⽅式:
假装这个⽂件不存在,直接返回⼀个404 Not found报⽂
稍微友好⼀点,明确告诉你有这个⽂件,但不允许访问,返回⼀个403 Forbidden
再宽松⼀些,返回405 Method Not Allowed,然后⽤Allow头告诉你可以⽤HEAD⽅法获取⽂件的元信息
举⼏个个⽐较常⽤的⽅法说明:
GET/HEAD
请求从服务器获取资源,这个资源既可以是静态的⽂本、页⾯、图⽚、视频,也可以是由PHP、Java动态⽣成的页⾯或者其他格式的数据
GET⽅法虽然基本动作⽐较简单,但搭配URI和其他头字段就能实现对资源更精细操作,例如,在URI后使⽤“#”,可以在获取页⾯后直接定位到某个标签所在的位置;使⽤If-Modified-Since字段就变成了“有条件的请求”,仅当资源被修改时才会执⾏获取动作;使⽤Range 字段就是“范围请求”,只获取资源的⼀部分数据
HEAD⽅法与GET⽅法类似,也是请求从服务器获取资源,服务器的处理机制也是⼀样的,但服务器不会返回请求的实体数据,只传回响应头,就是资源的“元信息”。可以看做是GET⽅法的⼀个“简化版”或者“轻量版”。因为它的响应头与GET完全相同,所以可以⽤在很多并不真正需要资源的场合,避免传输body数据的浪费
⽐如,想要检查⼀个⽂件是否存在,只要发个HEAD请求就可以了,没有必要⽤GET把整个⽂件都取下来。
再⽐如,要检查⽂件是否有最新版本,同样也应该⽤HEAD,服务器会在响应头⾥把⽂件的修改时间传回来
POST/PUT
GET和HEAD⽅法是从服务器获取数据,⽽POST和PUT⽅法则是相反操作,向URI指定的资源提交数据,数据就放在报⽂的body⾥
⽐如,上论坛灌⽔,敲了⼀堆字后点击“发帖”按钮,浏览器就执⾏了⼀次POST请求,把你的⽂字放进报⽂的body⾥,然后拼好POST请求头,通过TCP协议发给服务器。
⼜⽐如,上购物⽹站,看到了⼀件⼼仪的商品,点击“加⼊购物车”,这时也会有POST请求,浏览器会把商品ID发给服务器,服务器再把ID写⼊你的购物车相关的数据库记录
PUT的作⽤与POST类似,也可以向服务器提交数据,但与POST存在微妙的不同,通常POST表⽰的是“新建”“create”的含义,⽽PUT则是“修改”“update”的含义
在实际应⽤中,PUT⽤到的⽐较少。⽽且,因为它与POST的语义、功能太过近似,有的服务器甚⾄就直接禁⽌使⽤PUT⽅法,只⽤POST ⽅法上传数据
其他⽅法
DELETE⽅法指⽰服务器删除资源,因为这个动作危险性太⼤,所以通常服务器不会执⾏真正的删除操作,⽽是对资源做⼀个删除标记。当然,更多的时候服务器就直接不处理DELETE请求
CONNECT是⼀个⽐较特殊的⽅法,要求服务器为客户端和另⼀台远程服务器建⽴⼀条特殊的连接隧道,这时Web服务器在中间充当了代理的⾓⾊
OPTIONS⽅法要求服务器列出可对资源实⾏的操作⽅法,在响应头的Allow字段⾥返回。它的功能很有限,⽤处也不⼤,有的服务器(例如Nginx)⼲脆就没有实现对它的⽀持
TRACE⽅法多⽤于对HTTP链路的测试或诊断,可以显⽰出请求-响应的传输路径。它的本意是好的,但存在漏洞,会泄漏⽹站的信息,所以Web服务器通常也是禁⽌使⽤
URI
URI,也就是统⼀资源标识符(Uniform Resource Identifier)包含有URL和URN两个部分,在HTTP
世界⾥⽤的⽹址实际上是URL,即统⼀资源定位符(Uniform Resource Locator)。但因为URL实在是太普及了,所以常常把这两者简单地视为相等
URI 的格式
中华传统URI本质上是⼀个字符串,这个字符串的作⽤是唯⼀地标记资源的位置或者名字,它不仅能够标记万维⽹的资源,也可以标记其他的,如邮件系统、本地⽂件系统等任意资源。⽽“资源”既可以是存在磁盘上的静态⽂本、页⾯数据,也可以是由Java、PHP提供的动态服务
下⾯的这张图显⽰了URI最常⽤的形式,由scheme、host:port、path和query四个部分组成,但有的部分可以视情况省略
辽宁税务局
scheme:“协议名”,表⽰资源应该使⽤哪种协议访问,浏览器通过你的应⽤程序看到URI⾥的scheme,就知道下⼀步该怎么⾛了,会调⽤相应的HTTP或者HTTPS下层API。在scheme之后,必须是三个特定的字符 : / / ,把scheme和后⾯的部分分开
host:port,即主机名加端⼝号,表⽰资源所在主机,主机名可以是IP地址或者域名的形式,必须要有,否则浏览器就会找不到服务器。但端⼝号有时可以省略,浏览器等客户端会依据scheme使⽤默认
的端⼝号,例如HTTP的默认端⼝号是80,HTTPS的默认端⼝号是443
Path,有了协议名和主机地址、端⼝号,再加上后⾯标记资源所在⽬录,浏览器就可以连接服务器访问资源。URI⾥path采⽤了类似⽂件系统“⽬录”“路径”的表⽰⽅式,因为早期互联⽹上的计算机多是UNIX系统,所以采⽤了UNIX的“/”风格。URI的path部分必须以“/”开始
nginx
协议名 http
主机名 nginx
端⼝号省略,对于 http 协议默认 80
路径部分也被省略,默认就是⼀个“/”,表⽰根⽬录
:8080/11-1
主机名
端⼝号 8080
路径是 /11-1
HTTP协议标准⽂档RFC7230的URI
tools.ietf/html/rfc7230
主机名 tools.ietf
路径是 /html/rfc7230
file:///D:/http_study/www/
协议名 file,表⽰这是本地⽂件
三个斜杠⾥的前两个属于URI特殊分隔符 ://
主机名被省略,file类型URI的“特例”,它允许省略主机名,默认是本机localhost
路径是 /D:/http_study/www/
但对于HTTP或HTTPS这样的⽹络通信协议
蒸鸡翅
主机名是绝对不能省略的,会导致浏览器⽆法找到服务器
查询参数:URI后⾯还有⼀个“query”部分,它在path之后,⽤⼀个“?”开始,但不包含“?”,表⽰对资源附加的额外要求。
查询参数query有⼀套⾃⼰的格式,是多个“key=value”的字符串,这些KV值⽤字 符“&”连接,浏览器和客户端都可以按照这个格式把长串的查询参数解析成可理解的字典或关联数组形式
例如:获取商品图⽚,但想要⼀个32×32的缩略图版本;获取商品列表,但要按某种规则做分页和排序;跳转页⾯,但想要标记跳转前的原始页⾯
URI的完整格式
第⼀个多出的部分是协议名之后、主机名之前的⾝份信息“ur:passwd@”,表⽰登录主机时的⽤户名和密码,但现在已经不推荐使⽤这种形式了(RFC7230),因为它把敏感信息以明⽂形式暴露出来,存在严重的安全隐患开封博物馆
第⼆个多出的部分是查询参数后的⽚段标识符“#fragment”,它是URI所定位的资源内部的⼀个“锚点”或者说是“标签”,浏览器可以在获取资源后直接跳转到它指⽰的位置。
但⽚段标识符仅能由浏览器这样的客户端使⽤,服务器是看不到的。也就是说,浏览器永远不会把带“#fragment”的URI发送给服务器,服务器也永远不会⽤这种⽅式去处理资源的⽚段
URI 的编码
在URI⾥只能使⽤ASCII码。对于ASCII码以外的字符集和特殊字符做⼀个特殊的操作,把它们转换成与URI语义不冲突的形式。这在RFC规范⾥称为“escape”和“unescape”,俗称“转义”
HTTP 响应报⽂的状态⾏
看完了请求⾏,我们再看响应报⽂⾥的起始⾏,在这⾥它不叫“响应⾏”,⽽是叫“状态⾏”(status line),意思是服务器响应的状态⽐起请求⾏来说,状态⾏要简单⼀些,同样也是由三部分构成:
版本号:表⽰报⽂使⽤的HTTP协议版本
状态码:三个数字,表⽰处理的结果,⽐如200是成功,500是服务器错误
原因:对状态码的⼀个解释说明
看⼀下之前 Wireshark 抓包⾥的响应报⽂,状态⾏是:
HTTP/1.1 200 OK
意思就是:“浏览器你好,我已经处理完了你的请求,这个报⽂使⽤的协议版本号是1.1,状态码是200,⼀切OK。”
另⼀个“GET /favicon.ico HTTP/1.1”的响应报⽂状态⾏是:
HTTP/1.1 404 Not Found
意思是:抱歉啊浏览器,刚才你的请求收到了,但我没找到你要的资源,错误代码是404
状态码
它是⼀个⼗进制数字,表⽰服务器对请求的处理结果。客户端可以依据代码适时转换处理状态,例如继续发送请求、切换协议,重定向跳转等,有那么点TCP状态转换的意思
⽬前RFC标准⾥规定的状态码是三位数,所以取值范围就是从000到999。RFC标准把状态码分成了五类,⽤数字的第⼀位表⽰分类,⽽0-99不⽤,由000-999变成了100~599
这五类具体含义:
1××:提⽰信息,表⽰⽬前是协议处理的中间状态,还需要后续的操作
2××:成功,报⽂已经收到并被正确处理
nba2k13
3××:重定向,资源位置发⽣变动,需要客户端重新发送请求
4××:客户端错误,请求报⽂有误,服务器⽆法处理
5××:服务器错误,服务器在处理请求时内部发⽣了错误
接下来逐个解释: