成都SEO:搜索引擎的工作原理是什么

2020-07-25 16:57:32| 发布者:向远小编| 查看: |

完成数据收集工作搜索引擎的工作内容大致分为三个步骤,先是爬行和抓取工作,然后进行预处理,最后做出相应的排名,具体的过程下面小编为大家详细的介绍一下吧。

蜘蛛

搜索引擎用来爬行和访问页面的程序被称为蜘蛛

蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。

蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网站

一个栗子淘宝robots

防君子不防小人

跟踪链接

为了尽可能的抓取更多的页面,蜘蛛会跟踪页面上的链接从一个页面爬到下一个页面

爬行策略:深度优先和广度优先相结合

地址库

为了避免重复爬行和抓取网址,搜索引擎都会建立一个地址库,记录还没有被抓取的网页和已经被抓取的网页

url来源

人工录入的种子网站(门户网站)

蜘蛛抓取页面后,页面中的外部链接

站长自己提交的网址

大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本上是毫无用处的,搜索引擎更喜欢自己沿着链接发现新页面。

文件储存

抓取的网页放入原始数据库中,每一个url都有对应的文件编号

爬行时复制内容检测

蜘蛛在爬行时会进行一定程度的复制检测,如果有权重很低的网站上有大量转载和抄袭内容时,该网页不会被收录

预处理(索引)

蜘蛛获取到的原始页面,不能直接用于查询排名处理,需要对其进行预处理,为最后的查询排名做准备

提取文字

从html中的title,p,h1,span标签中提取文字

除文本文字外,还会提取meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字。

中文分词

中文搜索引擎特有步骤

词典匹配和基于统计两种方法

去停止词

的,啊

the,of

消除噪声

根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。

去重

同一博文发布到两个不同的博文网站

页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹

正向索引

把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等

倒排索引

将正向索引的关系转换过来

链接关系计算

链接原理

搜索引擎在抓取页面内容后,必须事前计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。

特殊文件处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等

排名

用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的

搜索词处理

中文分词

去停止词

指令处理:搜索结果是否全部符合条件

拼写错误矫正

整合搜索触发:视频,音频,咨询

文件匹配

在倒排索引数据库中,找到同时符合多个关键字的文件

初始子集选择

搜索出来的结果往往会有几万个甚至几十万个,当有这么多文件时,不可能计算所有文件的相关性,所有初始子集的选择会依据于网页的权重,先选出1000个左右的文件。

相关性计算

关键词常用程度:越常用的关键词在计算相关性时,影响力越小,停止词就是常用词的极端,其对页面相关性几乎没有影响

词频及密度:页面中出现关键词的次数越多,相关性越大;但由于这点太容易被钻空子,所以这一点的重要程度越来越低

关键词的位置及形式:在标题,黑体,h1标签中的关键词,相关性更高

关键词距离:多个关键词之间的距离越近,相关性越强

链接分析及页面权重:有其他页面以关键词为锚文字描述该页面,自身页面的权重和导入该页面链接的页面权重

排名过滤及调整

对于有作弊嫌疑的页面排名有-11,-6,-30等名次的惩罚

广告置顶

排名显示

所有排名确定后,排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上

搜索缓存

在搜索领域中,所谓缓存,就是在高速内存硬件设备上为搜索引擎开辟一块存储区,来存储常见的用户查询及其结果,并采用一定的管理策略来维护缓存区内的数据。当搜索引擎再次接收到用户的查询请求时,首先在缓存系统中查找,如果能够在缓存中找到,则直接返回搜索结果;否则采取正常的搜索流程来返回搜索结果。缓存技术在目前所有的搜索引擎都采用到。

2/8定律

查询及点击日志

搜索用户的IP地址、搜索的关键词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志。这些日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。

如果用户有登录,这些日志也会影响该用户之后的排名。

<
>

【成都向远网络科技有限公司】是一家专业的网络推广公司,我们专注为中小企业提供整体网络营销策略解决方案,包括网站建设、网站设计、网站制作、云网客等一体化的网站建设、设计及营销服务,使得有价值的精准客户与您联系,有效提高订单量!

联系我们

成都市锦江区泰合国际财富中心6栋

182-0025-6808(服务时间:9:00-18:00)

2076837818@qq.com

在线咨询 官方微信官方微信

联系方式

咨询热线:18200256808

返回顶部