搜索引擎工作原理深度解析

2016-04-30 17:10 阅读 1,015 次 评论 1 条

搜索引擎工作原理深度解析,解析搜索引擎怎么来到我们网站,怎么抓取我们网站的内容,以及怎么快速的搞网站的排名。搜索引擎的工作原理

蜘蛛(爬行和抓取网站页面的一个程序,各类型的蜘蛛有着明确的分工。如:抓取的蜘蛛只会抓取页面,抓取的网址是由抓取蜘蛛提供,爬行的蜘蛛只会爬行网址而不会抓取页面。)

跟踪链接:爬行类型蜘蛛跟踪链接。一、深度爬行:网址的每一条链接都会爬行。(一般情况下适用与比较好的网站) 二、广度爬行:蜘蛛只会选择一条网址进行爬行,当把这条网址都爬行完成的时候,蜘蛛将离开网站。

吸引蜘蛛:常见的吸引蜘蛛有标题写的非常好,但确没有实质的内容。(对蜘蛛非常不友好的)。 发布外链,让蜘蛛能更快的发现我们的网站。

网站和页面权重:权重分为0-10总共11个级别。(权重不被百度所认可。权重是有爱站网提出来的。)权重是仿照谷歌的PR值来设定的。那么相应的来说,权重越高的网站蜘蛛爬行的几率就会越高,权重越低,那么爬行的几率就会越低。

页面更新度:更新度也就是网站的更新频率,一般蜘蛛会偏好更新度比较高的网站。

导入链接:导入链接就是外部网站指向自身网站的链接。导入链接越多,页面被发现的几率就会越大。

与首页点击距离:与首页点击距离越近的页面,越容易被收录。

地址库:爬行类型的蜘蛛将发现的网站存入地址库中,抓取蜘蛛可以直接通过地址库中的链接直接到网站上去抓取内容。 将网址存入地址库的两种方法:一、爬行蜘蛛存入地址库中。 二、通过网址提交存入地址库中。(网站上线第一件事就是去做网址提交)

文件存储:存储网站的网址。

爬行时复制检测:在爬行的时候检测是否存在类似的数据,如果存在将不会被抓取,如果没有才会被抓取。
END
预处理

去重:经过一系列的处理之后,再把筛选出来的数据和数据库中的对比,如果数据库中存在类似的数据,那么这条数据将不会被放入到数据库中(也就是收录)

正向索引:正向索引储存的是关键词文件。

倒排索引:倒排索引是储存关键词页面。

链接关系计算:通过链接技术,让页面有一个初步大概的排名。

特殊文件处理:搜索引擎现在目前为止绝大部分只会识别文字,如图片,其他格式的一些文档,搜索引擎是无法识别的。

提取文字:在抓取回来的内容中提取出重要文字和关键词。关键词:在搜索框中搜索的词叫关键词,比较长的关键词叫做长尾关键词。

中文分词:把提取出来的关键词进行拆分。中文分词是基于:统计匹配和词典匹配。统计匹配,是根据网络的热门搜索程度来匹配的。词典匹配,是根据词典来匹配关键词的。百度词条可以创建新的关键词。

去停止词:去掉那些在语句中没有起到作用的词。常见的有地、得、的。

消除噪声:去掉那些与页面无关的因素,如:广告、备案信息等;
排名

搜索词的处理:把用户输入的关键词进行处理,筛选出最能说明用户意图的关键词。

文件匹配:把处理后的关键,拿到倒排索引库中进行匹配。

初始子集的选择:选择出需要参与排名的页面,百度最多显示76,也就是760个倒排索引中的文件。

相关性计算:相关性计算比较复杂,通过相关性计算,能得到大概的排名。

排名过滤及调整:主要是针对于做弊的网站进行调整。

显示排名:经过以上的处理之后,搜索引擎将搜索结果显示给用户。

搜索缓存:第一次搜索结果将会被缓存在浏览器或者其他的地方,当第二次搜索这个关键词的时候,会直接调用缓存返回给用户。(前提是没有清空缓存文件)

查询及点击日志:服务器会记录下关键词的搜索次数和点击次数。可以登陆百度统计站长工具,可以看看我们网站展现率,和点击率,还有跳出率,直接关系我们网站的排名。百度就是通过这些数据来,来衡量我们网站的权重,从面给我们提高排名。如果想超越你的竞争对手可以从这个方法下手。会给你更多的惊喜哦。

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:搜索引擎工作原理深度解析 | 溪风SEO技术博客
分类:网站优化 标签:
成都seo博客留言

发表评论

呲牙 憨笑 坏笑 偷笑 色 微笑 抓狂 睡觉 酷 流汗 鼓掌 大哭 可怜 疑问 晕 惊讶 得意 尴尬 发怒 奋斗 衰 骷髅 啤酒 吃饭 礼物 强 弱 握手 OK NO 勾引 拳头 差劲 成都seo

表情