杭州山井电气有限公司
地址: 杭州市拱墅区康桥工业园区康桥路12号 邮编: 310015
电话: 86-0571-85343991 85350227
传真: 86-0571-85350227
手机: 13957158911
http://www.sakene.com
Email: saken@163.com
QQ:664503527 463243487
发布者:除湿机 售后支持:2016/8/3 |
问题场景:客户使用虚拟主机,除湿机被搜索引擎爬虫访问耗费大量流量和带宽,如何处理
解决方法:可以通过在站点根目录下创建Robots.txt,Robots.txt文件是除湿机的一个文件,搜索引擎蜘蛛抓取除湿机首先就是抓取这个文件,根据里面的内容来决定对除湿机文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。
1、首先,先了解一下目前搜索引擎和其对应的User-Agent,如下:
搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp
2、Robots.txt样例代码:
例1. 禁止所有搜索引擎访问除湿机的任何部分
User-agent: *
Disallow: /
例2. 允许所有的搜索引擎访问除湿机的任何部分
User-agent: *
Disallow:
例3. 仅禁止Baiduspider访问您的除湿机
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的除湿机
User-agent: Baiduspider
Disallow:
例5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事项:1)三个目录要分别写。
2)请注意最后要带斜杠。
3)带斜杠与不带斜杠的区别。
例6. 允许访问特定目录中的部分url
实现a目录下只有b.htm允许访问
User-agent: *
Allow: /a/b.htm
Disallow: /a/