搜索引擎是如何将你想要的网页呈现到你眼前的?

36 阅读6分钟

今天,你想吃锅包肉了,但是你所在的城市没有一家能够做出正宗的锅包肉口味,于是你跃跃欲试,打算自己犒劳自己一顿,你打开百度,输入:锅包肉的做法。

网页一下子就呈现了出来,而第一条链接,标题就是:最正宗锅包肉的作法!!!

你点进去,一下子就学会了锅包肉的作法,然后你按照步骤,一步步地将厨房炸掉了。

虽然你失败了,但是,你产生了一个疑惑,不是【我的厨艺为什么这么烂?】,而是【为什么百度能这么快的将结果推给我,结果还这么精准?】

好的,恭喜你,虽然你在厨艺上毫无天赋,但你是一个生性好奇的人,对任何事物都充满好奇心,并且问问题很精准。

为什么搜索引擎会知道你搜的内容,并且这么快地将正确的结果推到你眼前?

这里有几个关键字,【知道】、【快】和【精准】

首先,搜索引擎为什么会【知道】,我们想搜的是什么?

我来回答这个问题,其实搜索引擎不知道,它不理解什么是锅包肉,也不知道锅包肉的作法,但是,它作为搜索引擎, 本身承载着若干个网页,而搜索引擎首先要做的,就是率先将所有网页下载下来。

下载下来之后呢?

它为了假装知道你问的是什么,它决定,根据网页的内容,给所有网页打上标签。

现在,你在搜索栏中搜索的是【锅包肉的作法】

那么百度会给这一句话进行拆分、分词,这个分词算法是另一部分的内容,这里先不说,,总之,聪明的百度将这一句话分成了【锅包肉】【的】【作法】这三个部分。

然后,我们假如,这三个词的标签分别是1 2 3 :

锅包肉 -- 1

的 -- 2

作法 -- 3

搜索引擎让你输入的内容和标签匹配上,然后就能得到结果了。

这就是一次简单的匹配算法。

但是,我说的是,你就能得到结果了,我没有说【正确】两个字哦

想想看,你输入的东西被分词,然后匹配标签,搜索引擎将所有包含标签的网页都返回给你了,那是一种什么样的情况,你可能会发现,一堆的结果里,好多包含【锅包肉】,但是你点开看,这居然是一篇介绍锅包肉起源的文章,再或者,好有好多包含【作法】的网页,你点开一瞅,这都什么乱七八糟的,什么【母猪饲养的正确作法】【天师作法,速速显灵】,完全和锅包肉靠不上边啊,最离谱的是,它可能还会给你返回一堆含有【的】字的网页,哈哈哈,那场面就会变得十分有趣,因为我也不知道它会返回什么给你了。

所以,搜索引擎,不仅仅是简单的匹配算法,他还应该将正确的结果返回给你吧。

还是这个例子,你搜的是【锅包肉的作法】

分词:

锅包肉

作法

并且假设它们的标签分别是 1 2 3

此时,在你输入的文字转换成标签,它们链接在一起的顺序就是 1 - 2 - 3 对吧

而此时在搜索引擎内部,又会发生什么呢?

他们会将网页内容标签顺序为 1 - 2 - 3的页面返回给你

也就是说,在最初给网页打标签的时候 它还多加了一步,就是按照网页内关键词的顺序给网页打标!

举个例子:

现在有两个网页,一个标题为【锅包肉的作法】,一个标题为【锅包肉的起源】

假设起源两个字对应的标签为4

那么在搜索引擎内部,【锅包肉的作法】 的标签为 1-2-3,【锅包肉的起源】 的标签为1-2-4

而你输入的内容是【锅包肉的作法】 ,那么搜索引擎就不会将【锅包肉的起源】从呈现给你。

除非你仅仅搜索【锅包肉】,两个文章都包含了锅包肉,可能会一起呈现在你眼前。

但是到了这里,我们又产生了一个问题,互联网中国,肯定不止一篇锅包肉的作法的文章,那么我们怎么能保证你返回给我的页面的质量呢?

比如,现在有两篇介绍锅包肉作法的文章,一篇是国宴大厨X师父写的,另一篇是比尔盖茨写的,你想啊,比尔盖茨懂个屁的锅包肉啊!他的作法肯定比国宴大厨的难吃。

那么,搜索引擎又是如何判断这两篇文章的好坏的呢?

聪明的谷歌想到了打分机制。

也就是说,给每一个网页打分,但是打分的标准是什么?

在这这里,我先说一下,现在有一个直播间,它挂上了小黄车,只要你去点,就会跳转到商品的下单页,那么在这个过程中,是直播间的页面指向了商品的下单页面。

然后我们再想一个例子,回想你大学毕业的时候,是否为论文愁秃了脑袋瓜,你的导师是否告诉你,你的论文必须引述10个别人的论文。

然后你翻阅领域大佬的论文,战战兢兢地引用一小部分,生怕查重过高。

在这个过程中,你为什么要引用别人的论文,是不是因为别人的论文比你的厉害?你并不会引用一个比你自己的论文还要垃圾的论文对吗?

你引用了一次,就代表你指向了它一次,就像是你写笔记的时候,在一个专业名词上你引用了一个解释该名词的超链接,引用了,就代表指向了。

这两个例子有个共同点对吧,总是质量低的指向质量高的。

那么也就是说,在所有的页面中,只要被指向的次数越多,就代表它的质量越高,只要它被指向一次,就 + 1,指出去一次,就 -1 ,这就是页面质量的计算方法。

但是这里还有一个重要性传递的问题,比如一个页面a,被指向的次数特别多,它指出去的次数很少,只有一次指向了页面b,那么是不是也说明这个质量b的页面也特别高。

然后呢,搜索引擎就将匹配你搜索词的页面按照此计算网页的分数递减的推给你,确保第一个链接就是你想要的。

到这里,就结束了一次搜索。