分类目录:

记录网站建站、网页制作以及SEO等方面的心得体会和感悟。

服务器再次上线

去年(2017)2月,把东京家里的东西或送或扔,终于清理一空,随即就踏上了来加拿大的旅程。服务器也因而下线。

我对加拿大的制度不感兴趣,无奈家人喜欢这里,只得放弃了日本那边的事业,不远万里来到了这边,投入到“半义务”的支援加拿大建设的工作中去。正是:

“收拾起,大地山河一担装,四大皆空相。历尽了渺渺程途,漠漠平林,垒垒高山,滚滚长江。但见那寒云惨雾和愁织,受不尽苦雨凄风带怨长。”

开始时,处于极度的抑郁之中。一切都变得没了意义,努力也白努力,然而,不努力又或生活艰辛或坐吃山空。因此,只能又汲汲营营又空空落落,生活在苦闷之中。稍后,终于鼓起几分力气,申请了昂贵的手机和上网服务,与世界联系得紧密了一些。但是,ISP提供的设备都是设置了密码的,有问题也只能打电话求助,所以,自己的服务器还是难以上线,只能在家里内部使用。

转眼一年多过去了,唯一有点兴趣的事就是打打Pokemon Go游戏,以及跟该游戏的社区线下互动一下(比如合作打头目战等),毕竟该游戏据东京大学研究,有相当于接受心理咨询之功效,而且还曾经使得日本某个“家里蹲”能逐渐克服心理障碍,走出了家门。然后,就搬了一次家。鉴于原来的ISP的服务不怎么好(人倒是很客气,只是服务的内容不好,经常会断网等),而且搬家还要收费(手机公司和ISP好像都对新客户十分友好,而对自己既存的客户很不好,就像一些人对外人好而对自己家人不好一样),就换了一家,费用略有下降,而且更难能可贵的是,设备的管理员密码也告诉了,于是,我就有了可以开通网站服务的基础。

昨天,公司宣布了我的辞职,从今天开始就进入休假状态,主要是需要消化掉自己的带薪年假。因此,我就把服务器搬了出来,并对上网设备设置了一番,期间因不小心设置错误而不得不两次刷回出厂设置。最后,终于开通了网站服务,并设置好了服务器内的mail服务,本网站群再次上线!

然后,就是要学习一些在新公司需要用到的新技术,准备迎接新的挑战了。

禁止360蜘蛛的大量抓取

近来发现我的服务器负担很重,CPU的风扇不时地呜呜叫。打开log一看,原来是360的蜘蛛在大量地抓网页。

本来,搜索引擎的蜘蛛来抓网页,我们应该本着欢迎的态度。但是,我的服务器和带宽实在有限,而且我也不靠网站谋生,因此,我必须尽快结束它的抓取。

查了一下,它是查看robots.txt的,但不知道它是否遵守,因为要大约1天的时间才能知道。但网上有人说它忽视robots.txt。由于我不能再等,为了尽快降低服务器的负担,我以重定向的方法把这些蜘蛛的访问引向360.cn。这绝不是出于某种恶毒的心理,只是相当于拿镜子发个信号,或是像用车灯对前面的车打个信号一样,督促其注意。具体的语句如下(放在.htaccess文件或Apache的配置文件里):

RewriteCond %{REMOTE_ADDR} ^(182.118.2)
RewriteRule ^.*$ http://www.360.cn/ [R=301,L]

RewriteCond %{REMOTE_ADDR} ^(61.55.185.1)
RewriteRule ^.*$ http://www.360.cn/ [R=301,L]

RewriteCond %{REMOTE_ADDR} ^(101.226.1)
RewriteRule ^.*$ http://www.360.cn/ [R=301,L]

RewriteCond %{REMOTE_ADDR} ^(42.62.37.189)
RewriteRule ^.*$ http://www.lenet.com.cn/ [R=301,L]

最后一项是针对来自“Forest Eternal Communication Tech”(IP为42.62.37.189)的长期大量的访问。它没表明网络蜘蛛的身份,但不像是某个人的正常浏览,因此也禁止之(重定向到其公司网站)。

看着360蜘蛛轻快地完成“抓取”而出现的一片片log,心里十分畅快!服务器的负担终于降下来了。

另,我本人十分不喜欢360的各种软件产品,总是觉得所有人都应该尽快卸载掉它们。这里没有任何特别的感情色彩,纯粹是从用户的角度出发而做出的建议。

追加:又一个不读取robots.txt的YYSpider:

RewriteCond %{REMOTE_ADDR} ^(101.227.4.23)
RewriteRule ^.*$ http://www.yunyun.com/ [R=301,L]

现在为什么是个人就能弄个网络蜘蛛,而且上来就大量抓取?真是令人无奈。

评价一下各国政府机关网站

  • 日本:简单,但内容详实。看了就基本知道怎么办手续。(而且对Email等的询问回复很快)但是,其实施E-Government计划(比如,在线申请等)的一些网页很差,我办理带宠物入境手续时,试过IE和Firefox,结果都不好使。不知道是找那个公司做的。但是,税务局的在线申请不错。
  • 加拿大:复杂,大量的信息。仔细阅读的话,基本上可以说完全知道怎么办手续(移民申请、枫叶卡更新、返加证申请、孩子出生手续等都是本人经阅读后自己办的)。但是,有用的信息淹没在大量的文字中。需要较强的英语阅读能力和毅力。
  • 美国:内容简单详实。在线申请等部分很好。但是,作为世界IT中心的美国,其网站的HTML代码质量实在很差。
  • 俄罗斯使领馆:可以不去看。
  • 中国一般政府机关:可以不去看。
  • 中国的境外使领馆:提供比较有用的信息,但是,你看了之后可能还是得去一趟当面问一下,或打电话问(如果你十分十分的幸运,能打通的话)。(附注:由于近年来雇佣了日本人坐前台受理各种申请手续,现在中国驻日本大使馆的窗口服务态度极佳--在中国政府机关里比的话--比温哥华的中国领事馆强太多了。工作效率也不错。)
  • 法国:如果你用英文写Email咨询的话,别想得到回复。
  • 澳大利亚:移民等方面的资料比较明白。但是,一切向钱看:要资料?先交钱。
  • 新西兰:移民等方面的资料比较明白。可能新西兰人比较质朴,或者觉得在移民上竞争不过澳大利亚,其资料跟加拿大一样,可以免费获得。

法国网络流氓

记得以前看过GRE词汇,“法国流氓”有一个专门的单词。这次有一个比腾讯更流氓的:大量地试图向你的网站发肮脏的垃圾留言。

它的IP显示为ksnnnnnn.kimsufi.com。其中“nnnnnn”为随机的数字。在本站,它首先试图黑本站的CGI程序,不成功后,发现了本站的相册,就大量地发垃圾留言。前两天,我检查网站情况时意外发现大量的留言(都是留在里层,不容易发现)。同时,在网上一查,发现本站的相册网址居然在检索到的色情网站上出现,其原因就是这些垃圾留言。于是赶紧编一程序,立即将其全部删除。

把它封了后,它还是在不停地试,于是就将其解封,重定向回www.kimsufi.com,让它自己跟自己玩去吧(英语的话就是让它fuck with himself)。

设置方法(Apache服务器):

RewriteEngine on
RewriteCond %{REMOTE_HOST} .+.kimsufi.com
RewriteRule ^/(.*) http://www.kimsufi.com/ [R=301]

抽样统计了一下,从2009.03.25 00:27:50到2009.03.27 04:57:20,访问的IP和次数如下:

213.186.56.40:   261
213.186.61.112:    25
213.251.135.145:  40
91.121.11.219:      288
91.121.26.15:       285
94.23.43.216:      294
94.23.43.217:      290
94.23.43.229:     291

显示的地址:

ks23234.kimsufi.com
ks24763.kimsufi.com
ks2562.kimsufi.com
ks2992.kimsufi.com
ks369348.kimsufi.com
ks369349.kimsufi.com
ks369361.kimsufi.com

都是在法国的OVH公司(http://www.ovh.com)登录的IP。

追记(2009.04.05):

写完本文后,我就发了一封Email给OVH,反映kimsufi.com的spam的行为,但是,到今天还是没有收到任何回复。看来,哪里都一样。法国的该公司比我们中国的公司的唯一好的地方就是不会给你回一封Email,说你的投诉地址无效。但真的是“天下乌鸦一般黑”啊。kimsufi.com仍一如既往地但徒劳地试图向本站发垃圾留言,当然都被重定向会它自己了。

I emailed OVH to report the spamming behavior of simsufi.com, but I haven’t gotten any response back, and simsufi.com is still spamming this site frequently (but in vain of course).

国内网络公司盛产IT流氓

本来被soso折腾了一番,很是恶心,把两大段的IP地址屏蔽掉,以为终于清静了,不曾想今天又来了过于大量的访问。刚开始还不太多,最近两天越来越变本加厉,过去的24小时内访问11386次,过去的5分钟内访问87次(平均3.45次/秒)!而且访问的都是以图片为主的相册,跟先前的soso如出一辙。当然,它也把自己伪装成来自Windows XP的IE6的普通访问,而且从不访问robots.txt,简直让人怀疑是不是soso新开的分号。

查了一下,发现好像是来自深圳的,IP地址是:

58.61.164.*

二话不说,屏蔽之没商量。由于有好多的IP地址,估计又是一个想一口吃成胖子的做搜索引擎的梦的公司所为。

不禁要问,作为网络公司,毕竟披着一层文化的外衣,大家表面上也算斯文人吧?为什么到了看不见脸的网络上就干脆表现得像地痞流氓一样不要脸了呢?古人云:文如其人。我们搞IT的,也应该把起码的修养带到我们的程序里。

记得很久以前,在网上联系免费教英文的一个人,他听说我是程序员,就提出让我帮他编写一个大量发垃圾邮件的程序,被我立即拒绝了。虽说不是什么大不了的事,但我认为这是我们起码的职业道德。

“流氓站点”果然是腾讯SOSO,及最终解决方案

这段时间以来,被各地站长深恶痛绝的“流氓站点”果然打出了SOSO的旗帜,总算敢于表明自己的身份了。它在日志里留下如下的标志:

124.115.4.190 – – [18/Jan/2008:21:48:58 +0900] “GET xxx 403 185 xxx “Sosospider+(+http://help.soso.com/webspider.htm)”

于是我到它的网站访问了一下,看到下述的回答:

4.sosospider访问给我的网站造成很大负载怎么办?

sosospider的正常访问并不会对您的网站造成很大负载。如果您发现有名为Sosospider的agent抓取影响了您正常的服务,请尽快和我们联系。您可以将信息反馈至sosospider@tencent.com,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。

5.我可以拒绝sosospider访问我的站点么?

sosospider遵循robots协议。该协议的详细信息可以参考http://www.robotstxt.org/wc/robots.html(英文网站)。注意:禁止sosospider访问您的网站,将使您的网站在搜搜网页搜索引擎中无法被用户搜索到,请慎重使用。

本人评论:

4: 不会造成”很大”负载?多大算很大?

5:纯粹的谎言。我查了过去一个月的日志,该蜘蛛还是频繁地来,却从来没访问过本站的robots文件。

本来本人对搜索引擎还是相对宽容的,尤其是新兴的。有一个硅谷的新兴搜索引擎,搜索界面还没有呢就在到处抓。由于它没对本站造成什么困扰,虽然它的访问对本站没任何意义,还是由它去了。但SOSO的搜索引擎蜘蛛却一直如此恶劣,只好继续把它当流氓网站对待了。

———————————

1月27日补足:

不管怎么屏蔽和重定向,它还是大段地在我的服务器的日志里留下记录,实在烦不胜烦,于是昨天晚上干脆在路由器里把“124.115.”的IP全部过滤了。于是,日志终于又清净了,生活真美好!

“流氓站点”是腾讯SOSO吗?

在网上看到一篇文章,说124.115.0.* 这个流氓站点可能是为腾讯SOSO的搜索引擎采集数据的。我不知道是不是这样,不过,就算你是搜索引擎,自己占那么多带宽也不对啊!那样拼命地抓就能赶Google超百度吗?要是不提高搜索算法等技术方面的硬指标的话,不过是痴人说梦而已!再有,假定它是搜索引擎的蜘蛛,也有以下的罪过:

  1. 搜索引擎的蜘蛛都打出旗号表明自己的身份,而该流氓却把自己伪装成IE6.0,跟做人一样,一点都不坦荡,这样缩头藏尾的肯定不是什么好东西。
  2. 从没见它读取robots.txt,说明它不愿遵守搜索引擎蜘蛛的规则,不尊重站长。
  3. 不分青红皂白,什么文件都抓,而且显然算法有问题,经常不断地抓同一个文件。
  4. 一点都不顾及对方的带宽,特别是抓本站的相册时,很多图片文件很占带宽,它却抓起来没完,中间毫不间歇,本人有十分宽的带宽都影响到了上网。这更是严重的自私行为,对别人缺乏起码的尊重。如果是腾讯就更说不过去了:当初他们抄袭了国外的通讯程序,而在国内推广时,不也是严重缺乏存储空间和带宽吗?现在有几个钱了,就不顾别人的死活了!

不过,今天发现它好像停了,不知道是全部停了,还是只是在本站停止这种骚扰了。如果它真的是腾讯SOSO的蜘蛛的话(这里说是如果,本人并不能确定它是不是),知道怎么对付它吗?这里教大家一小手(见下面的代码),轻轻一拨弄,不管你多大的劲,都让你从哪里来的就回哪里去,真正的“四两拨千斤”,正传的太极拳打法。:-) 这里只是一个示例,谁这样弄,结果自己负责。

RewriteEngine On
RewriteCond %{REMOTE_HOST} ^124.115.0..*$
RewriteRule ^/(.*) http://www.soso.com/ [R=301]

发现一个流氓站点

今天突然发现上网速度很慢。我的带域很宽,实在想不通为什么,就到服务器上查了一下,发现从124.115.0.*的大量IP的访问,而且是毫无原由的大量访问。我以为是遭受闲得无聊的蹩脚“黑客”的攻击了,后来查了一下过去的LOG文件,发现开始时它是像蜘蛛一样采集,后来可能是陷在一个地方出不来了,在那里不断循环地访问某个没必要访问的文件。

到网上查了一下,发现好多人都深受其害,而且,还发现在某论坛,该IP段有好多的垃圾贴,主要是贴自己的一些链接。估计是什么黒帽SEO所为?既采集大家的站点来拼凑垃圾网站,又贴链接获得PR。

该段的IP地址是:

inetnum: 124.114.0.0 – 124.115.255.255
netname: CHINANET-SN
descr: CHINANET Shanxi(SN) province network
descr: China Telecom
route: 124.114.0.0/15
descr: From Shanxi(CHINANET-SN) Network of ChinaTelecom
person: Xianghong Cao
address: Shanxi provice data communication Bureau
address: 185# zhuque Road
address: Xi’an city, Shanxi provice 710061
address: CN
phone: +8629-523-3633
fax-no: +8629-522-8093
e-mail: sxic@public.xa.sn.cn
nic-hdl: XC9-AP
mnt-by: MAINT-NULL
changed: caoxianghong@263.net 19990409

但目前实际捣乱的都是: 124.114.0.*,还没见其他的。

我发现耍流氓的IP不但有124.114.0.*,还有124.115.0.*。为了用绝后患,我封掉了124.114和124.115。而且也建议大家这么做。

大家也不必到上面的邮件地址反映,根据我的经验,给那里发邮件,也是收到一封“无法送到”的回复。唉!流氓啊!

站长们,没说的,封杀之!鉴于其疯狂和变态,要本着宁可错杀一千,也绝不能漏掉一个的原则,否则你的网站迟早被拖垮。

封其IP的方法:

最简单的方法是从Apache里封(如果你是用Apache当服务器的话)。你既可以在httpd.conf配置文件里设置,又可以在.htaccess里设置。说明如下:

1. 在配置文件里设置:

打开httpd.conf编辑,将下列block如下编辑:

<Directory “/var/www/html”>
Options Indexes FollowSymLinks
AllowOverride None
Order allow,deny
Allow from all
Deny from 124.114.
Deny from 124.115.

</Directory>

2. .htaccess文件法

在网站根目录下建立或打开.htaccess文件,加入如下内容:

Order allow,deny
Allow from all
Deny from 124.114.
Deny from 124.115.

希望大家广为传播,将这段IP地址彻底废掉!

补足:鉴于大家反映上述方法封得太狠了,可将黑体字部分改为:

Deny from 124.115.0.

----

同时参阅:“流氓站点”是腾讯SOSO?

Blog的traceback可已矣

今天偶然查看了一下网站的日志,发现有一些对本博客的trackback请求。我从开始就把trackback给关闭了,突然想到应该查一下该请求的频度,就用一条命令统计了一下,发现近5天以来,一共79次,甚至有的老兄居然对不存在的网页也请求trackback!要知道本博客并非十分热门的博客,而且文章总数现在也不多(大约50篇)。这些请求显然是那些热衷于搞黒帽或灰帽SEO的人的杰作。

我感到很悲哀。这网络世界到底是怎么了?网站终究是为浏览者服务的,整天弄这些损人又不怎么利己的破事干什么?!看来,博客的trackback功能可以放心地寿终正寝了。

另外,本网站的留言本也在这5天内有102次试图粘贴网络垃圾的企图。好在我早在程序里加入自动识别并拒绝这些垃圾散布行为的代码了,否则,整天删帖毕竟是很烦人的一件事;而加注册、填写图片中的数字等防治措施则让用户很麻烦。

唉!总之现在就是这么一个世道。只要是能自由让别人留网址的功能,最好都通通关闭,否则你的网站迟早变成一个网上垃圾堆。

网站搬到惠普服务器上去了

因为买的那台惠普服务器当工作站用是在比较失败,因此决定还是让它干它的老本行--服务器。:-p 它当服务器用还是不错的,前几天把网站从原来的PC上移到这台服务器上了,刚巧移完后PC无法正常启动。。。好险!

一个小插曲是, 这次移动曾导致网站停止服务一天,因为早上我匆匆地设置其IP地址时,敲错了一位,而这台可恨的惠普服务器上的显示卡是如此之差,设成1280×1024时惨不忍睹,要不我也不会犯那错误啊。。。

不过,用这台服务器后,网站速度的确提高不少,毕竟和原来那台DELL台式机相比,CPU快了不少,内存多了不少,该死的S-ATA硬盘也的确比ATA硬盘快。

现在,我的DELL台式机也从服务器又官复原职了,当我的工作站了。看到Windows的精致的显示,真是舒服啊!(Linux虽然有很多好处,不得不承认的是,它的显示实在比较糟糕。我把Windows的字体拷贝过去也没实质性的改善。)