搜索引擎如何对网站进行爬行和抓取

如题所述

当搜索引擎蜘蛛准备爬行某个网页的时候,会对服务器发出访问申请,申请通过后,搜索引擎会先去爬行网站的robots.txt文件,针对robots.txt文件中所禁止搜索引擎抓取的局部,搜索引擎将不会去抓取。接着服务器就会给搜索引擎返回当前页面的html代码,现在有很多的站长工具中都会有模仿蜘蛛抓取网页代码的功能,大家有兴趣可以去查询,这里值得注意的就是页面代码中汉字所占的比例,因为搜索引擎在预处置阶段会把汉字局部筛选进去分析网页的内容和关键词,汉字所占比例越多说明网页返回的有效信息越多,越有利于搜索引擎对页面的分析。这也就是为什么大家在编写网站代码的时候,会对CSS和Javascript代码进行外部调用,对图片要添加alt属性,对链接要添加titl属性的缘故,都是为了降低页面代码所占的比例,提高文字所占比例,当然相关性也是一方面。

搜索引擎爬行网页都是沿着链接进行爬行的爬行网页的时候并不是一个蜘蛛在爬行,一般都是由多个蜘蛛进行爬行,爬行的方式有两种,一种是深度爬行,一种是广度爬行,两种方式都可以爬遍一个网站的所有链接,通常都是两种方式并行的但实际上由于资源的限制,搜索引擎并不会爬遍一个网站的所有链接。

既然搜索引擎不可能爬遍整个网站的所有链接,那么作为seo人员来说,接下来的工作就是要吸引蜘蛛尽可能多的去爬行网站链接,为蜘蛛的爬行发明轻松便当的环境,尤其是针对一些重要的链接,那么对于一个网站来说如何去吸引蜘蛛呢?影响蜘蛛爬行的因素有哪些呢?

1.网站的权重

一个权重高的网站,蜘蛛往往会爬行的很深,关于如何提高网站的权重。

2.页面是否经常更新

这是一个老生常谈的问题了虽然网站的更新和维护工作异常的辛苦,但是没办法,人家搜索引擎就喜欢新鲜的血液,如果网站的更新比较勤快的话,搜索引擎自然来的也勤快,来的多了新链接被抓取的几率当然也就大了

3.高质量导入链接

一个页面的导入链接相当于页面的入口,原理很简单,导入链接多了搜索引擎进入你网页的渠道也就多了如果是一条高质量的导入链接,那么搜索引擎对网页链接爬行的深度也会增加。

4.与首页距离越近的链接,被爬行的几率越大

一个网站的首页是权重最高的那么距离它越近的页面,被赋予的权重也会越高,被蜘蛛爬行的几率当然越大,这是网站seo优化中常用到一个就近原理,可以应用到很多方面,比如网站的主导航中第一个栏目比最后一个栏目的权重高,距离锚文本越近的文字是搜索引擎重点照顾的地方等等。

当搜索引擎对页面进行抓取之后,会将页面中的链接解析出来,通过与地址库中的链接进行匹配对比分析,将没有进行爬行的新链接放入到待访问地址库,然后派出蜘蛛对新链接进行爬行。

搜索引擎对网页进行爬行和抓取的时候,并不是进行简单的爬行和抓取工作,而是同时并发有大量的其他操作,其中很重的一项工作就是对网页内容进行检测,通过截取网页上的内容与数据库中的信息做对比,如果是一些权重比较低的网站出现大量转载或者伪原创,可能蜘蛛爬行到一半就会离开,这也就是为什么通过网站日志看到有蜘蛛来,但是页面没被收录的原因。所以说,即使是进行伪原创,也是需要一定的技巧的除非你网站权重特别高。
温馨提示:答案为网友推荐,仅供参考
相似回答