web前端开发

更新时间:2023-06-10 14:37:41 阅读: 评论:0

web前端开发
⼀.浏览器⼯作原理拆解分析
本⽂将深⼊的研究当你输⼊⼀个⽹址的时候,后台到底发⽣了⼀件件什么样的事~
1. ⾸先嘛,你得在浏览器⾥输⼊⽹址:
2. 浏览器查找域名的IP地址
导航的第⼀步是通过访问的域名找出其IP地址。DNS查找过程如下:
1.浏览器缓存–浏览器会缓存DNS记录⼀段时间。有趣的是,操作系统
没有告诉浏览器储存DNS记录的时间,这样不同浏览器会储存个⾃固定的⼀个时间(2分钟到30分钟不等)。
2.系统缓存–如果在浏览器缓存⾥没有找到需要的记录,浏览器会做⼀个
系统调⽤(windows⾥是gethostbyname)。这样便可获得系统缓存中的
记录。
3.路由器缓存–接着,前⾯的查询请求发向路由器,它⼀般会有⾃⼰的
我的阅读故事DNS缓存。
4.ISP DNS 缓存–接下来要check的就是ISP缓存DNS的服务器。在这⼀
般都能找到相应的缓存记录。
road tour5.递归搜索–你的ISP的DNS服务器从跟域名服务器开始进⾏递归搜索,
从.com顶级域名服务器到Facebook的域名服务器。⼀般DNS服务器的缓存中会有.com域名服务器中的域名,所以到顶级服务器的匹配过程不是那么必要了。
DNS递归查找如下图所⽰:
DNS有⼀点令⼈担忧,这就是像/doc/07ff664ce518964bcf847c1b.html 或者
/doc/07ff664ce518964bcf847c1b.html 这样的整个域名看上去只是对应⼀个单独的IP地址。还好,有⼏种⽅法可以消除这个瓶颈:
1.循环 DNS是DNS查找时返回多个IP时的解决⽅案。举例来说,
/doc/07ff664ce518964bcf847c1b.html 实际上就对应了四个IP地址。
2.负载平衡器是以⼀个特定IP地址进⾏侦听并将⽹络请求转发到集群服
务器上的硬件设备。⼀些⼤型的站点⼀般都会使⽤这种昂贵的⾼性能负
莲藕功效载平衡器。
3.地理 DNS 根据⽤户所处的地理位置,通过把域名映射到多个不同的IP
地址提⾼可扩展性。这样不同的服务器不能够更新同步状态,但映射静
态内容的话⾮常好。
4.Anycast是⼀个IP地址映射多个物理主机的路由技术。美中不⾜,
Anycast与TCP协议适应的不是很好,所以很少应⽤在那些⽅案中。
⼤多数DNS服务器使⽤Anycast来获得⾼效低延迟的DNS查找。
3. 浏览器给web服务器发送⼀个HTTP请求
因为像Facebook主页这样的动态页⾯,打开后在浏览器缓存中很快甚⾄马上就会过期,毫⽆疑问他们不能从中读取。
所以,浏览器将把⼀下请求发送到Facebook所在的服务器:
GET /doc/07ff664ce518964bcf847c1b.html / HTTP/1.1
Accept: application/x-ms-application, image/jpeg,
application/xaml+xml, [...]
Ur-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; [...]
Accept-Encoding: gzip, deflate
Connection: Keep-Alive
Host: /doc/07ff664ce518964bcf847c1b.html
Cookie: datr=1265876274-[...]; locale=en_US; lsd=WW[...];
c_ur=2101[...]longlongtimeago
GET 这个请求定义了要读取的URL:“/doc/07ff664ce518964bcf847c1b.html /”。浏览器⾃⾝定义 (Ur-Agent头),和它希望接受什么类型的相应 (Accept and
bass是什么意思
Accept-Encoding头). Connection头要求服务器为了后边的请求不要关闭TCP 连接。
请求中也包含浏览器存储的该域名的cookies。可能你已经知道,在不同页⾯请求当中,cookies是与跟踪⼀个⽹站状态相匹配的键值。这样cookies会存储登录⽤户名,服务器分配的密码和⼀些⽤户设置等。Cookies会以⽂本⽂档形式存储在客户机⾥,每次请求时发送给服务器。
⽤来看原始HTTP请求及其相应的⼯具很多。作者⽐较喜欢使⽤fiddler,当然也有像FireBug这样其他的⼯具。这些软件在⽹站优化时会帮上很⼤忙。
除了获取请求,还有⼀种是发送请求,它常在提交表单⽤到。发送请求通过URL 传递其参数(e.g.:
/doc/07ff664ce518964bcf847c1b.html /puzzle.aspx?id=85)。发送请求在请求正⽂头之后发送其参数。
像“/doc/07ff664ce518964bcf847c1b.html /”中的斜杠是⾄关重要的。这种情况下,浏览器能安全的添加斜杠。⽽像“http: ///doc/07ff664ce518964bcf847c1b.html /folderOrFile”这样的地址,因为浏览器不清楚folderOrFile到底是⽂件夹还是⽂件,所以不能⾃动添加斜杠。这时,浏览器就不加斜杠直接访问地址,服务器会响应⼀个重定向,结果造成⼀次不必要的握⼿。
4. facebook服务的永久重定向响应
图中所⽰为Facebook服务器发回给浏览器的响应:
植树节国旗下讲话
HTTP/1.1 301 Moved Permanently
Cache-Control: private, no-store, no-cache, must-revalidate,
post-check=0,
pre-check=0
Expires: Sat, 01 Jan 2000 00:00:00 GMT
Location: /doc/07ff664ce518964bcf847c1b.html /
P3P: CP="DSP LAW"
Pragma: no-cache
Set-Cookie: made_write_conn=deleted; expires=Thu, 12-Feb-2009 05:09:50 GMT;
path=/; domain=/doc/07ff664ce518964bcf847c1b.html ; httponly
Content-Type: text/html; chart=utf-8
X-Cnection: clo
Date: Fri, 12 Feb 2010 05:09:51 GMT
Content-Length: 0
服务器给浏览器响应⼀个301永久重定向响应,这样浏览器就会访问
“/doc/07ff664ce518964bcf847c1b.html /”⽽
⾮“/doc/07ff664ce518964bcf847c1b.html /”。
为什么服务器⼀定要重定向⽽不是直接发会⽤户想看的⽹页内容呢?这个问题有好多有意思的答案。
其中⼀个原因跟搜索引擎排名有关。你看,如果⼀个页⾯有两个地址,就像
/doc/07ff664ce518964bcf847c1b.html / 和/doc/07ff664ce518964bcf847c1b.html /,搜索引擎会认为它们是两个⽹站,结果造成每⼀个的搜索链接都减少从⽽降低排名。⽽搜索引擎知道301永久重定向是什么意思,这样就
会把访问带www的和不带www的地址归到同⼀个⽹站排名下。
还有⼀个是⽤不同的地址会造成缓存友好性变差。当⼀个页⾯有好⼏个名字时,它可能会在缓存⾥出现好⼏次。
5. 浏览器跟踪重定向地址
现在,浏览器知道了“/doc/07ff664ce518964bcf847c1b.html /”才是要访问的正确地址,所以它会发送另⼀个获取请求:
GET /doc/07ff664ce518964bcf847c1b.html / HTTP/1.1
Accept: application/x-ms-application, image/jpeg,
application/xaml+xml, [...]
Accept-Language: en-US
Ur-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; [...]
Accept-Encoding: gzip, deflate
Connection: Keep-Alive
Cookie: lsd=XW[...]; c_ur=21[...]; x-referer=[...]
Host: /doc/07ff664ce518964bcf847c1b.html
头信息以之前请求中的意义相同。
6. 服务器“处理”请求
服务器接收到获取请求,然后处理并返回⼀个响应。
这表⾯上看起来是⼀个顺向的任务,但其实这中间发⽣了很多有意思的东西- 就像作者博客这样简单的⽹站,何况像facebook 那样访问量⼤的⽹站呢!
1.Web 服务器软件
web服务器软件(像IIS和阿帕奇)接收到HTTP请求,然后确定执⾏什
么请求处理来处理它。请求处理就是⼀个能够读懂请求并且能⽣成HTML 来进⾏响应的程序(像
/doc/07ff664ce518964bcf847c1b.html ,)。
举个最简单的例⼦,需求处理可以以映射⽹站地址结构的⽂件层次存储。
像/doc/07ff664ce518964bcf847c1b.html /folder1/page1.aspx这个地址会映射
/httpdocs/folder1/page1.aspx这个⽂件。web服务器软件可以设置成为地址⼈⼯的对应请求处理,这样 page1.aspx的发布地址就可以是
/doc/07ff664ce518964bcf847c1b.html /folder1/page1。
2.请求处理
请求处理阅读请求及它的参数和cookies。它会读取也可能更新⼀些数
据,并讲数据存储在服务器上。然后,需求处理会⽣成⼀个HTML响应。
所有动态⽹站都⾯临⼀个有意思的难点 -如何存储数据。⼩⽹站⼀半都会有⼀个SQL数据库来存储数据,存储⼤量数据和/或访问量⼤的⽹站不得不找⼀些办法把数据库分配到多台机器上。解决⽅案有:sharding (基于主键值讲数据表分散到多个数据库中),复制,利⽤弱语义⼀致性的简化数据库。
委托⼯作给批处理是⼀个廉价保持数据更新的技术。举例来讲,Fackbook得及时更新新闻feed,但数据⽀持下的“你可能认识的⼈”功能只需要每晚更新(作者猜测是这样的,改功能如何完善不得⽽知)。批处理作业更新会导致⼀些不太重要的数据陈旧,但能使数据更新耕作更快更简洁。
7. 服务器发回⼀个HTML响应
图中为服务器⽣成并返回的响应:
HTTP/1.1 200 OK
Cache-Control: private, no-store, no-cache, must-revalidate,
post-check=0,
pre-check=0
Expires: Sat, 01 Jan 2000 00:00:00 GMT
P3P: CP="DSP LAW"
Pragma: no-cache
Content-Encoding: gzip
extraContent-Type: text/html; chart=utf-8
X-Cnection: clo
Transfer-Encoding: chunked
Date: Fri, 12 Feb 2010 09:05:55 GMT
2b3Tn@[...]
整个响应⼤⼩为35kB,其中⼤部分在整理后以blob类型传输。
黄鹤楼翻译
内容编码头告诉浏览器整个响应体⽤gzip算法进⾏压缩。解压blob块后,你可以看到如下期望的HTML:
hyg
lang="en" id="facebook" class=" no_js">
...
关于压缩,头信息说明了是否缓存这个页⾯,如果缓存的话如何去做,有什么cookies要去设置(前⾯这个响应⾥没有这点)和隐私信息等等。
请注意报头中把Content-type设置为“text/html”。报头让浏览器将该响应内容以HTML形式呈现,⽽不是以⽂件形式下载它。浏览器会根据报头信息决定如何解释该响应,不过同时也会考虑像URL扩展内容等其他因素。
8. 浏览器开始显⽰HTML
在浏览器没有完整接受全部HTML⽂档时,它就已经开始显⽰这个页⾯了:
9. 浏览器发送获取嵌⼊在HTML中的对象
在浏览器显⽰HTML时,它会注意到需要获取其他地址内容的标签。这时,浏览器会发送⼀个获取请求来重新获得这些⽂件。
下⾯是⼏个我们访问/doc/07ff664ce518964bcf847c1b.html 时需要重获取的⼏个URL:
1.图⽚
/doc/07ff664ce518964bcf847c1b.html /rsrc.php/z12E0/hash/8q2anwu7.gif
/doc/07ff664ce518964bcf847c1b.html /rsrc.php/zBS5C/hash/7hwy7at6.gif
2.CSS 式样表
pants怎么读/doc/07ff664ce518964bcf847c1b.html /rsrc.php/z448Z/hash/2plh8s4n.css

本文发布于:2023-06-10 14:37:41,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/140429.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:浏览器   请求   服务器   缓存
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图