分类目录:

记录网站建站、网页制作以及SEO等方面的心得体会和感悟。

网上垃圾散布者的分布

今天,在考虑设置防火墙时,突然想到,应该统计一下guest book spammer的地理分布情况,把那些无关又有很多垃圾散布者的国家直接屏蔽掉算了。于是取近期部分LOG(1月18日早上4点到今天晚上20点),发现共约117人次!编了几个小脚本,对这些spam的来源按国家作了一个统计,结果如下:

CN: 37;  NET: 12; COM: 11; BR: 7;   SA: 5;
IN: 5;   AU: 4;   DE: 4;   UA: 4;   TH: 4;
RU: 3;   JP: 3;   HK: 2;   NO: 2;   PK: 2;
LV: 1;   IR: 1;   PS: 1;   KZ: 1;   GB: 1;
DO: 1;   NL: 1;   ID: 1;   LT: 1;   AE: 1;
SK: 1;   ES: 1;   TW: 1;   BG: 1;   SG: 1;

这个结果让我有点吃惊。在我的印象中,散布网络垃圾的大多是从欧洲来的,特别是东欧等地。。。后来直接在程序里对其加以拒绝处理,懒得再调查了,没想到现在国内的垃圾散布者倒是后来居上。也太不给面子了吧?总不能把中国来的访问都屏蔽了啊。。。

域名变更后的追踪

从上次检查到现在,又过了大约一周。

百度:新址2290(多了720个!) - 旧址746(逐渐减少)

看来百度还是不错的嘛。起码它正确地理解了我的意图:要从旧地址迁移到新地址。而且,百度抓取比较疯狂,可能有些人不喜欢这点。

Google:新址120 (少了74个!)- 旧址1,570(没变!)

很奇怪,反正Google就是我行我素,你也不能跟它理论。

Yahoo!:新址2910(多了640个) - 旧址2200(减少了2280个)

Yahoo!的做法一直比较正确。

Live:新址105(多了107个) - 旧址64(少了22个)

也正确,只是它还是一贯的慢!不过这次它的抓取质量高了些,每页都有内容,不像以前,只是一个链接地址摆在那里。

从这次的结果看来,只有最大的巨头Google的结果比较荒诞,其他的都很正确。不知Google又犯什么病了。:-)

域名变更后的现状

从改域名到现在有两周多了。监视一下各大搜索引擎的收录情况。

百度:新址1,570 - 旧址911

新地址突然从昨天的3个变得这么多!旧地址在减少。

Google:新址194 - 旧址1,570

新地址略增(多了约100个),旧地址略减(少了30个)。

Yahoo!:新址2,270 - 旧址4,480

新地址大量增加!令我百思不得其解的是,旧地址居然也在增加?!我把地址都重定向了啊!难道它是用以前抓到的来更新的?也就是说,这是由于抓取和更新之间的滞后造成的?

Live:新址8 - 旧址88

新地址多了4个,旧地址少了1个。看来微软的搜索引擎就是慢!就像Windows Vista的发布计划一样。:-D

百度看来还是一贯的快。但从LOG中,看到它还是在不管别人机器死活地快速频繁地HEAD个没完,返回给它301重定向了,它也不理,只是一个劲地HEAD。。。不过也许它分析过301返回码了所以才在减少我的旧地址?

令我惊奇的是 Yahoo!。以前在我印象中,它收录比较慢,只是收录Blog的速度像是比快。不过,它现在对动态网页的收集速度很快,不像Google那样,整天来爬,却极其吝啬于收录。现在,从Yahoo!来的流量超过了Google。这在以前是没有过的。

Google则还是维持其一贯的步调,不知是其公司大而效率变低还是它太过于力求“完美”?

不知道Live的收录标准到底是什么。印象中总是只收你的寥寥几页。它号称已经开始用sitemap标准了,但从来没见到向它提交的方法。看来[name]微软, http://www.microsoft.com[/name]还是公司太大,别的事情(比如其主业Windows和Office等)太忙,而在这上花的资源太少。就像它的Messenger,现在也很不景气,逐渐被Skype等取代。

不管怎么说,最后向各个收录弊站的搜索引擎道声谢!

最好的SEO之我见

在iDog看来,最好的SEO应该是:健全优美的网页-刻意的SEO

健全优美的网页就像外表整洁之对于人。我们都希望和外表整洁、显得有专业素养的人打交道,而有可能回避外表肮脏粗俗的人,程序也是一样。尽管出于竞争的考虑,几乎所有的浏览器都尽力显示明显语法错误的网页,但搜索引擎机器人毕竟不是人,因此,尽可能正确地给它们提供网页的信息就显得十分重要,谁让我们必须求它们了?

一个健全优美的网页应符合以下条件:

  • 合乎W3C的某种标准的规范
  • 国际化信息正确
  • 恰当的标题(title标签):最好能既含有相关的关键词,又对阅读者来说是一个很好的标题(也就是说,不能只作给机器人看,主要还得照顾人类)
  • 包括恰当的keyword标签:尽管Google基本不理会该标签,但毕竟还是有关心它的。但应紧扣文章主旨,不能是任意关键词的堆砌。
  • 包括恰当的description标签:最好包括文章的关键词。但是,每篇文章都专为机器人另写一段,似乎比较过分。因此,一个比较偷懒的方法是取文章的一段,或其一部分,如果它太长的话。这样,就用程序自动处理就可以了。
  • 文章标题和title标签相同,并使用h1标签。
  • 有必要的话,加下级的标题,用h2、h3等标签,理想的情况下应含有关键词。不过,写文章时总考虑关键词等,就有点目的性太强,而容易使人失去写作的兴趣。因此,关键词不用强求。
  • 第一段交代文章的主旨,含有关键词。也可以像一些文章那样,先写一个简短的摘要,并用斜体字。
  • 简洁的head部。不要堆积一些java script、css等与文章内容无关的代码。要把这些代码放在外部文件中。
  • 尽量不用table等来排版。
  • 导航部分放在文章的后面?这个我也不太清楚,因为这部分往往含很多关键词,但是,它们可能跟文章无关。因此见仁见智。
  • 图片都加alt属性,里面放上描属性的语句。机器人是不会欣赏图片的,必须告诉它那是什么。
  • Flash只能是网页的点缀,不能用来组建网页的结构。
  • 动态网页的网址静态化。
  • 网址统一化,防止形成“补充材料”。
  • 网页要尽可能简洁(不只是外观,还包括代码),不能太杂乱。
  • 网页不能过大过小。大的分割成几页,小的合并。
  • 网页层次不能太多:这对于分门别类地组织题材稍广的内容的网站比较困难。我也没想好解决方法。也许可以把各题材做成sub-domain?但这样一来,网站的流量就被各sub-domain分流了。。。也许可以用子目录整理但减少各主题之间的链接的解决方法?
  • 尽量避免网页上全是指向其他网页的链接。这比较容易出现在目录或索引之类的网页中。要是只有一个两个倒没什么,但不能有太多。解决方法是在上面加点相关于这些链接的内容,并放在链接之前。
  • 避免没有文字而全是图片。因为机器人看不懂图片。
  • 加强网页之间的链接。
  • 做指向相关的权威站点的链接。

总之,应该在保证语法正确、简洁明了的前提下,尽可能让看着舒服。毕竟,网页最终面对的还是人。因此,最好的SEO可能就是没有刻意的SEO,就像最高的武功就是没有招式一样。。。

新域名终于逐渐在搜索引擎中出现了

本站从今年1月7日晚开始换用新的域名(www.idogicat.com),开始几天十分惨淡。。。另外,在设置网址由旧域名向新域名重定向时,还出过几次技术失误,以至于把一些搜索引擎的机器人以及本人(!)都给BLOCK了(那些机器人想必和我一样郁闷,它们想“自打出世还没谁敢BLOCK老子呢!”,而我则作为本站的站长被屏蔽,天理何在啊!)。。。经过一番折腾和时间的积累,Google的机器人终于开始爬得多些了,而且含有新域名的网址开始出现在几大搜索引擎中,但与残存的含旧域名的网址相比,还是小巫见大巫,少得可怜:

百度:新址1 - 旧址1,580 (!百度向来更新比其他搜索引擎快,不知道为什么这次这么可怜)
Google:新址99 - 旧址1,600 (6.19%)
Yahoo!:新址117 - 旧址3,720 (3.15%)
MSN:新址4 - 旧址89 (4.49%)

如此看来,还是Google对重定向的理解比较好或反应比较快。。。Yahoo!收录了一些Google不知道为什么没有收录的CGI页,但是Google的机器人朋友一直在拼命地流窜于我那些CGI页之间啊!Yahoo!的巡回频度倒是没那么大,却早早的收录了。。。搞不清Google犯了什么毛病。

看来要完全地从旧域名转到新域名,还得经过一个比较长的过程。不过我并不后悔。这事赶早不赶晚。要是当初就把域名拿下的话,现在就没这么多烦恼了!