南昌seo培训-百度蜘蛛爬行策略

当前位置：南昌电脑培训学校 > 新闻中心 > 行业新闻 > 网络营销 > 正文

南昌seo培训-百度蜘蛛爬行策略

南昌seo培训-百度蜘蛛爬行策略

1、              蜘蛛

蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓去某些文件或目录，蜘蛛将遵守协议，不抓去被禁止的网址。
和浏览器一样，搜索引擎也有表明自己身份的用户代理名称，站长可以在日志文件中看到搜索引擎的特定用户代理，从而辨识搜索引擎蜘蛛。

Baiduspider+(+http://www.baidu.com/search/spider.html)   百度蜘蛛
Mozilla/5.0(Windous;U;Windous NT5 1:zh-CN;)Firefox/1.5.0.11;   360蜘蛛
Mozilla/5.0 (compatible:Googlebot/2.1;+http://www.google.com/bot.html) 谷歌蜘蛛
Mozilla/5.0 (compatible;bingobot/5.0;+http://www.bing.com/bingbot.htm) 微软 bing蜘蛛
Sogou+web+robot+(+http://www.sogou.com/doce/help/webmasters.htm#07) 搜狗蜘蛛
Sosospider+(+http://help.soso.com/webspider.htm)       搜搜蜘蛛
Mozilla/5.0（compatible:YodaoBot/1.0;http://www.youdao.com/help/webmaster/spider/;）有道蜘蛛

2.跟踪链接

整个互联网是由相互链接的网站及页面组成的。从理论上说，蜘蛛从任何一个页面出发，顺着链接都可以爬行到网上的所有页面。当然，由于网站及页面链接结构异常复杂，蜘蛛需要采取一定的爬行车略才能遍历所有页面。

最简单的爬行遍历车略分为两种，一种是深度优先，另一种是广度优先。

所谓深度有限，指的是蜘蛛沿着发现的链接一直向钱爬行，知道前面再也没有其他链接，然后返回到第一个页面，沿着一个链接再一直爬行。如图

光斗优先是指蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三层页面。如图

3.吸引蜘蛛

虽然理论上蜘蛛能爬行和抓去所有页面，但实际上他很懒，他不能也不会这么做。

页面重要度影响因素：

网站和页面权重。质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会更高，所以会有更多内页被收录

页面更新度。多次抓去后蜘蛛会对页面更新频率有所了解，不经常更新的页面，蜘蛛也没有必要经常抓去。如果页面经常更新，蜘蛛就会更加频繁的访问这种页面，页面上出现新的链接，也自然会被蜘蛛更快的跟踪，抓取新页面。

导入链接。要被蜘蛛抓取，就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常是页面上的导出链接被爬行深度增加。

与首页点击距离。一般来说，网站上权重最高的是首页，大部分外链是指向首页的，蜘蛛访问最频繁的也是首页。与首页点击距离越近，权重越高，爬行的机会也越大。

URL结构

4.地址库

为了避免重复爬行和抓去网址，蜘蛛会简历一个地址库，记录被抓取的页面。蜘蛛发现链接不是马上就去访问，而是将URL存入地址库，然后统一安排抓去。
地址库中的url来源：

人工录入的种子网站。
蜘蛛抓去页面后，从html中解析出新的url，与地址库中的数据库对比，如果是地址库中没有的网址，就存入待访问地址库。
站长通过搜索引擎网页提交表格提交进来的网址。
站长通过xml网站地图，站长平台提交的网址。

5.爬行时的复制内容检测

检测并删除复制内容通常是在预处理过程中进行的，但现在的蜘蛛在爬行和抓去文件时也进行一定程度的复制内容检测。遇到权重很低的网站上大量的转载抄袭内容时，很可能不再继续爬行。这也是站长在日志里发现了蜘蛛，但是页面却没有真正被收录过的原因之一。

南昌seo培训

南昌天猫运营培训—双十一如何做好直通车推广——爆发期

网络营销培训--网站长期没排名？200指数关键词的SEO诊断教程

南昌网络营销培训-从收录到排名网站经历过的风风雨雨

南昌seo培训-百度蜘蛛爬行策略

南昌网络营销培训-互联网推广要先从了解用户开始

上一篇：南昌网络营销培训-互联网推广要

下一篇：南昌网络营销培训-从收录到排名