一篇文章让你看懂百度搜索引擎原理——检索排序

搜索引擎原理很多人都只知其一,不知其二,随着互联网时代的发展,越来越多的算法被公开,也有越来越多的人对搜索引擎算法感到好奇,今天迅步总结的这篇文章用最简单直白的语言来解释搜索引擎的原理。本章内容分为抓取建库、检索排序、外部投票以及结果展现。

检索排序

检索

我们都知道站在用户的角度,我们使用搜索引擎是一个query的过程,用户在搜索不同的词汇的时候,搜索引擎会给我们不同的展现结果,比如我们搜索“运营是什么”,百度会把一些跟主题最相关的答部分展现给用户,而搜索“运营是什么行业”的时候,百度会变更搜索结果,把另外一些相关的答案展示给用户,而这个检索的流程是如何实现的呢?这就不得不提到检索。

用户在输入词汇的时候,算法会进行分词处理,然后查出每个term文档集合,然后求交集,然后通过协同过滤以及其他过滤手法最终形成了排序,我们拿上面的运营是什么来举例,分词后会变成:

运营——0x123sdsd

是——0x1237887

什么——0x565768

而算法查出每个文档集合(页面集合),有可能是这样

0x123sdsd 1 3 4 5

0x1237887 3 5 12

0x565768 9 7 6

上述求交集后,发现文档3、5是我们可能需要找的。如果用一个更简单的例子,我们可以这样描述:比如用户搜索运营是什么行业的query后,百度分词结果是:

运营 A,B,C,

是 D,E

什么 G,H

行业 H, C

我们可以看出,用户搜索“运营是什么行业”,页面C是我们想要找的结果,在实际应用过程中,百度算法会丢弃比如啊、什么、哦等这类的词语,也就是说,我们的页面越多的包含分词后的词,那么被检索出来的几率就越大,这也就是行业所称的“关键词密度”。

排序

既然检索有了结果,那哪些因素会影响到排序呢?

1、相关性

相关性是影响排序的重要因素,占据了70%以上,网页内容和用户检索需求的匹配程度,相关性主要体现在需求匹配、关键词个数以及关键词出现的位置和外部链接指向该页面所用的锚文本。

翻译过来就是,比如我们的内容中,出现跟运营、行业高度相关的词库,并且多次出现在H1等位置,外部一个链接使用锚文本指向该页面,那么该页面大概率是跟该主题高度相关的。

2、权威性

用户都喜欢权威性的站点,算法也相信权威站点的内容,而权威性代表了 这个网站的资质,也就是我们经常提到的备案、百度保障、百度信誉、百度认证等。

3、时效性

时效性内容也就是代表出现了新的页面,而新页面承载新鲜的内容,按时间排序我们的内容就可以排到前面。

4、重要性

网页内容与用户需求匹配重要程度或受欢迎程度,这句话理解过来就是,用户在进行query的时候,我们的内容不仅跟主题相关,内容还是要能吸引用户和被用户所重视的。

5、丰富度

丰富度看似简单,确实范围很广,简单的理解是你可以生产一篇内容满足用户单一需求,但还可以满足用户的延展需求,什么意思呢?我们可以拿上面的“运营是什么行业”举个例子,用户搜索运营是什么行业的时候,用户的一般需求是想了解运营具体什么行业,是否可以入行,更深层的需求是想了解一下运营这个行业的薪资待遇,是否有发展前景,如果我们把用户的多种需求都在一篇文章中完善了,文章的丰富度就出来了。

总结一下检索排序的流程:用户在进行query的时候,算法会对问题进行切词处理,让包含此主题的所有页面进行结果展现,但由于一些页面内容跟主题高度相关、内容且很丰富,观点新颖让用户喜欢,这样的文章就会被算法排在前面。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章