大家都知道网站能够运用 robots.txt 来控制蜘蛛的抓取,其实咱们在运用过程中会有很多误区:
今天罗列一下常见的robots.txt实际运用中的误区:
误区1.Allow包含的规模超过Disallow,并且方位在Disallow前面。
比方有很多人这样写:
想让一切蜘蛛抓取本站除/mulu/下面的url之外的一切页面,制止抓取/mulu/下面的一切url。
搜索引擎蜘蛛履行的规则是从上到下,这样会形成第二句指令失效。也就是说制止抓取/mulu/目录这条规则是无效的。正确的是Disallow应该在Allow之上,这样才会收效。
误区2.Disallow指令和Allow指令之后没有以斜杠”/”最初。
这个也很容易被忽视,比方有人这样写Disallow: 123.html ,这种是没有作用的。斜杠”/”表明的是文件对于根目录的方位,假如不带的话,自然无法判断url是哪个,所以是错误的。
正确的应该是Disallow: /123.html,这样才干屏蔽/123.html这个文件,这条规则才干收效。
误区3.屏蔽的目录后没有带斜杠”/”。
也就是比方想屏蔽抓取/mulu/这个目录,有些人这样写Disallow: /mulu。那么这样是否正确呢?
首先这样写(杭州网站建设)的确能够屏蔽/mulu/下面的一切url,不过同时也屏蔽了类似/mulu123.html这种最初为/mulu的一切页面,作用等同于Disallow: /mulu*。
正确的做法是,假如只想屏蔽目录,那么必须在结束带上斜杠”/”。
暂时先写这几条,今后遇到了其他的随时补充