南昌seo培训-百度蜘蛛爬行策略
1、 蜘蛛
蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓去某些文件或目录,蜘蛛将遵守协议,不抓去被禁止的网址。
和浏览器一样,搜索引擎也有表明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。
Baiduspider+(+http://www.baidu.com/search/spider.html) 百度蜘蛛
Mozilla/5.0(Windous;U;Windous NT5 1:zh-CN;)Firefox/1.5.0.11; 360蜘蛛
Mozilla/5.0 (compatible:Googlebot/2.1;+http://www.google.com/bot.html) 谷歌蜘蛛
Mozilla/5.0 (compatible;bingobot/5.0;+http://www.bing.com/bingbot.htm) 微软 bing蜘蛛
Sogou+web+robot+(+http://www.sogou.com/doce/help/webmasters.htm#07) 搜狗蜘蛛
Sosospider+(+http://help.soso.com/webspider.htm) 搜搜蜘蛛
Mozilla/5.0(compatible:YodaoBot/1.0;http://www.youdao.com/help/webmaster/spider/;) 有道蜘蛛
2.跟踪链接
整个互联网是由相互链接的网站及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行车略才能遍历所有页面。
最简单的爬行遍历车略分为两种,一种是深度优先,另一种是广度优先。
所谓深度有限,指的是蜘蛛沿着发现的链接一直向钱爬行,知道前面再也没有其他链接,然后返回到第一个页面,沿着一个链接再一直爬行。如图
光斗优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。如图
3.吸引蜘蛛
虽然理论上蜘蛛能爬行和抓去所有页面,但实际上他很懒,他不能也不会这么做。
页面重要度影响因素:
网站和页面权重。质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会更高,所以会有更多内页被收录
页面更新度。多次抓去后蜘蛛会对页面更新频率有所了解,不经常更新的页面,蜘蛛也没有必要经常抓去。如果页面经常更新,蜘蛛就会更加频繁的访问这种页面,页面上出现新的链接,也自然会被蜘蛛更快的跟踪,抓取新页面。
导入链接。要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常是页面上的导出链接被爬行深度增加。
与首页点击距离。一般来说,网站上权重最高的是首页,大部分外链是指向首页的,蜘蛛访问最频繁的也是首页。与首页点击距离越近,权重越高,爬行的机会也越大。
URL结构
4.地址库
为了避免重复爬行和抓去网址,蜘蛛会简历一个地址库,记录被抓取的页面。蜘蛛发现链接不是马上就去访问,而是将URL存入地址库,然后统一安排抓去。
地址库中的url来源:
人工录入的种子网站。
蜘蛛抓去页面后,从html中解析出新的url,与地址库中的数据库对比,如果是地址库中没有的网址,就存入待访问地址库。
站长通过搜索引擎网页提交表格提交进来的网址。
站长通过xml网站地图,站长平台提交的网址。
5.爬行时的复制内容检测
检测并删除复制内容通常是在预处理过程中进行的,但现在的蜘蛛在爬行和抓去文件时也进行一定程度的复制内容检测。遇到权重很低的网站上大量的转载抄袭内容时,很可能不再继续爬行。这也是站长在日志里发现了蜘蛛,但是页面却没有真正被收录过的原因之一。