近来发现我的服务器负担很重,CPU的风扇不时地呜呜叫。打开log一看,原来是360的蜘蛛在大量地抓网页。
本来,搜索引擎的蜘蛛来抓网页,我们应该本着欢迎的态度。但是,我的服务器和带宽实在有限,而且我也不靠网站谋生,因此,我必须尽快结束它的抓取。
查了一下,它是查看robots.txt的,但不知道它是否遵守,因为要大约1天的时间才能知道。但网上有人说它忽视robots.txt。由于我不能再等,为了尽快降低服务器的负担,我以重定向的方法把这些蜘蛛的访问引向360.cn。这绝不是出于某种恶毒的心理,只是相当于拿镜子发个信号,或是像用车灯对前面的车打个信号一样,督促其注意。具体的语句如下(放在.htaccess文件或Apache的配置文件里):
RewriteCond %{REMOTE_ADDR} ^(182.118.2)
RewriteRule ^.*$ http://www.360.cn/ [R=301,L]
RewriteCond %{REMOTE_ADDR} ^(61.55.185.1)
RewriteRule ^.*$ http://www.360.cn/ [R=301,L]
RewriteCond %{REMOTE_ADDR} ^(101.226.1)
RewriteRule ^.*$ http://www.360.cn/ [R=301,L]
RewriteCond %{REMOTE_ADDR} ^(42.62.37.189)
RewriteRule ^.*$ http://www.lenet.com.cn/ [R=301,L]
最后一项是针对来自“Forest Eternal Communication Tech”(IP为42.62.37.189
)的长期大量的访问。它没表明网络蜘蛛的身份,但不像是某个人的正常浏览,因此也禁止之(重定向到其公司网站)。
看着360蜘蛛轻快地完成“抓取”而出现的一片片log,心里十分畅快!服务器的负担终于降下来了。
另,我本人十分不喜欢360的各种软件产品,总是觉得所有人都应该尽快卸载掉它们。这里没有任何特别的感情色彩,纯粹是从用户的角度出发而做出的建议。
—
追加:又一个不读取robots.txt的YYSpider:
RewriteCond %{REMOTE_ADDR} ^(101.227.4.23)
RewriteRule ^.*$ http://www.yunyun.com/ [R=301,L]
现在为什么是个人就能弄个网络蜘蛛,而且上来就大量抓取?真是令人无奈。