这段时间以来,被各地站长深恶痛绝的“流氓站点”果然打出了SOSO的旗帜,总算敢于表明自己的身份了。它在日志里留下如下的标志:
124.115.4.190 – – [18/Jan/2008:21:48:58 +0900] “GET xxx 403 185 xxx “Sosospider+(+http://help.soso.com/webspider.htm)”
于是我到它的网站访问了一下,看到下述的回答:
4.sosospider访问给我的网站造成很大负载怎么办?
sosospider的正常访问并不会对您的网站造成很大负载。如果您发现有名为Sosospider的agent抓取影响了您正常的服务,请尽快和我们联系。您可以将信息反馈至sosospider@tencent.com,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
5.我可以拒绝sosospider访问我的站点么?
sosospider遵循robots协议。该协议的详细信息可以参考http://www.robotstxt.org/wc/robots.html(英文网站)。注意:禁止sosospider访问您的网站,将使您的网站在搜搜网页搜索引擎中无法被用户搜索到,请慎重使用。
本人评论:
4: 不会造成”很大”负载?多大算很大?
5:纯粹的谎言。我查了过去一个月的日志,该蜘蛛还是频繁地来,却从来没访问过本站的robots文件。
本来本人对搜索引擎还是相对宽容的,尤其是新兴的。有一个硅谷的新兴搜索引擎,搜索界面还没有呢就在到处抓。由于它没对本站造成什么困扰,虽然它的访问对本站没任何意义,还是由它去了。但SOSO的搜索引擎蜘蛛却一直如此恶劣,只好继续把它当流氓网站对待了。
———————————
1月27日补足:
不管怎么屏蔽和重定向,它还是大段地在我的服务器的日志里留下记录,实在烦不胜烦,于是昨天晚上干脆在路由器里把“124.115.”的IP全部过滤了。于是,日志终于又清净了,生活真美好!
我的服务器碰到同样的问题,搞的服务器cpu 100%,我给他们发邮件,也不能给解决,
我是用的VPS主机服务器,自己没办法设置路由器,不知道有没有办法解决?
要是Apache服务器的话,就参见http://www.idogicat.com/diary/70.html。这样总能在它访问时快点摆脱它。
要不就向自己的服务商反映,要求将其封掉。
您们不错了,天天来访问,搜搜直接K了我的站,几百个流量损失了
Sosospider流氓抓取,我的站点刚上线,写了robots.txt文件,但是它丫的就是不遵循这个规则…