Google搜索引擎的奥妙
google搜索引擎是由两位斯坦福大学的博士LARRY PAGE和SERGEY BRIN在1988年创立的并且现在已成为全球最大的搜索引擎。
当你用Google搜索引擎查找信息时,你先要将你所要查的内容的关键字输入,那么google就会对你所输入的内容进行翻译,语义分析;然后,google就会用自己的pagerank技术以及布尔运算查找结果并显示出来。PR(pagerank)值是google用来测评网页重要与否的一种方法,使PR值高的网页具有高的排名,在搜索结果中更靠前,从而提高搜索结果的相关性和质量。同时,google利用布尔运算来为你提供你所查找的信息。
Google在对输入查找的内容进行翻译时,对中文需要用到中文分词,中文分词就是将一个汉字序列切分成一个个单独的词,对输入的一段中文成功进行分词可以让电脑自动识别语句含义。TF-IDF是中文分词的重要技术,TF词频(Term Frequency)是特定词在某个文件出现的次数;IDF反文档频率(Inver Document Frequency)是指某个特定词在若干个文档中出现的频率,若出现的文档越少,IDF越大,说明该词条区分能力越好。常用TF*IDF计算某个关键字再某篇文章里的重要性》例如“石油”、“的”显然“石油”的TF小于“的”的TF,但是前者
的IDF大于后者,两者TF*IDF比较前者大。一般搜索引擎常将如“的”等一类词忽略,因为这类词在一篇文章中出现的频率太高,基本提供不了有用信息。
搜索引擎只进行分词是不行的,分词就是找到关键词;另外还得考虑各个网页的相关性,那么就得考虑语义分析,这种分析也可以是认为是找近义词,即如果两个词在大量的网页中出现,那么搜索引擎就会认为这两个词的语意相近,如“电脑”和“计算机”及“SEO”和“搜索引擎优化”。这种语义分析技术也称为潜在语义索引。例如,一.用户输入关键字后自动提示功能;二.关联词,如输入“奥运会”,结果出现“北京”;三.相关搜索中出现的结果。这种语义分析技术可在网站主题的形成和网页内容写作起到作用。
Google搜索时还利用了统计语言模型,如单你输入“仙剑奇侠传”时,当你只输入“仙剑”时就会出现“仙剑奇侠传”。因为若S表示一个特定的语句W1,W2,W3,…,Wn;由于一句话中前后彼此存在联系那么P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)此为条件概率公式。若是一句话中只有前后两个字或词有关,那么根据马尔科夫信源可知clazziquaiP(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…
Google中用于测评网页重要性的一种方法就是PR值PageRank。PR值最高为10,PR值越
高说明google越认为该网页越“重要”。PR值越高那么在搜索结果中排的次序越靠前,那么越容易被浏览。如果有其他网页链向网页A,那么每个网页都向A投了一票,相当于增加了A网页的PR值,当然每个投票者的权重值不同,所增加A的PR值也不同。同时A网页也会链向其他网页,并不是链向其他的越多越好,当链向其他的是会消耗自身的PR值,因此如果链向许多PR值不高的垃圾网站还降低自身PR值。PR的算法:
stephen amellPR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
• PR(A) :网页A页的PageRank值;
• PR(Ti) :链接到A页的网页Ti的PageRank值;
cpo是什么意思• C(Ti) :网页Ti的出站链接数量;
• d :阻尼系数,0<d<1, 通常设为0.8supreme是什么意思5
我们查询时的一句话总会有多个关键词如“信息论基础教程 答案 李亦农”这句话中至少有三个关键词“信息论基础教程A”“答案B”“李亦农C”,我们必然想用最快时间找到结果,那么运算就最简单,而二进制就最简单,因此把其编码为二进制最合适即布尔算法。假设查询了100个网页其中A在1,25,68,78,91;B在2,25,68,77,85;C在6,25,68,84,
93;使在出现过关键词的网页用1表示,否则用0;那么则有三组由100个0和1组成的数组组成,只要取其公共部分就行即相与,那么结果就出现了。
实际上,google不肯能每个用户每次查找内容就浏览全部网页,而是google制作了个目录,就像书的目录一样,要找内容只需查找目录就行,只不过这个目录是处于变化中,并根据PR值排序。
Google查询流程如下haunt:
1.英语口语培训视频解析查询关键字m族;carrageenan
爱祖国演讲稿
2.转换关键字为wordIDs漫画书的英文(我感觉就是目录中的标号);
3.在短桶short barrels中寻找每个关键字在doclist的起点;(和这个词有关得的网页)
4.扫描这个doclists直到有个网页与查询全部匹配;
5.计算这个网页的查询排名Ran;;
6.如果在短桶short barrels doclist列表已经查完,寻找每个关键字在长桶long barrels doclist的起点,重复第4步;
7.如果还没有查完doclist,重复第4步。