当前位置:首页 > 杭州IT/服务器维护外包

电动售货机网站使用 robots.txt 中常见的误区

2020-02-11


大家都知道网站能够运用 robots.txt 来控制蜘蛛的抓取,其实咱们在运用过程中会有很多误区:


今天罗列一下常见的robots.txt实际运用中的误区:


误区1.Allow包含的规模超过Disallow,并且方位在Disallow前面。


比方有很多人这样写:



User-agent: *
Allow: /
Disallow: /mulu/


想让一切蜘蛛抓取本站除/mulu/下面的url之外的一切页面,制止抓取/mulu/下面的一切url。


搜索引擎蜘蛛履行的规则是从上到下,这样会形成第二句指令失效。也就是说制止抓取/mulu/目录这条规则是无效的。正确的是Disallow应该在Allow之上,这样才会收效。


误区2.Disallow指令和Allow指令之后没有以斜杠”/”最初。


这个也很容易被忽视,比方有人这样写Disallow: 123.html ,这种是没有作用的。斜杠”/”表明的是文件对于根目录的方位,假如不带的话,自然无法判断url是哪个,所以是错误的。


正确的应该是Disallow: /123.html,这样才干屏蔽/123.html这个文件,这条规则才干收效。


误区3.屏蔽的目录后没有带斜杠”/”。


也就是比方想屏蔽抓取/mulu/这个目录,有些人这样写Disallow: /mulu。那么这样是否正确呢?

首先这样写(杭州网站建设)的确能够屏蔽/mulu/下面的一切url,不过同时也屏蔽了类似/mulu123.html这种最初为/mulu的一切页面,作用等同于Disallow: /mulu*。


正确的做法是,假如只想屏蔽目录,那么必须在结束带上斜杠”/”。


暂时先写这几条,今后遇到了其他的随时补充




免费获取报价

  • 29923329

  • 杭州市丰庆路498号北软智慧科创大厦203

  • 0571-85815193

  • pady@1t2.cn

网站地图 版权所有 © 2008-2021 杭州派迪科技有限公司  Copyright © 2008-2020  www.hzpady.com  All Rights Reserved    浙ICP备14029905号-1     公安备案:33010802008411    软著登字第3457658号