我们一般不太清楚搜索引擎蜘蛛何时第一次来到咱们的网站,也不太清楚第一次来过之后,蜘蛛随后再来的频率等等。 从搜索引擎前端,可以通过快照(cache)看到搜索引擎对网站的某一个网页的收录时间,但这对于搜索引擎对全站的抓取情况不能很好地统计了解。没辙了吗?当然也不是,通过网站详细的访问日志,可以观察出一些端倪来。以Apache服务器的Access Log访问日志为例: 65.55.106.108 - - [21/Nov/2009:15:01:10 +0800] “GET /robots.txt HTTP/1.1” 200 150 ---日志1 65.55.106.108 - - [21/Nov/2009:15:02:09 +0800] “GET / HTTP/1.1” 200 4888 ---日志2 目前市面上几乎所有的搜索引擎都遵循一个游戏规则,那就是它们都会根据网站根目录下设定的robots.txt来决定抓取哪些网页、不抓取哪些网页。那么我们就可以在访问日志文件里面搜索“robots.txt”来大致确定搜索引擎到来的时间。为什么说大致呢,因为同一个搜索引擎可能会多次读取 robots这个文件,那当然就是根据时间最早的一个日志记录看成该搜索引擎第一次到来的时间。从上面“日志1”可以看出,某搜索引擎在11月21号对库吧网(www.libzone.cn) 进行了第一次抓取。把IP地址65.55.106.108输入到IP138或其他查询IP的系统里面可以看出,该IP地址对 应的是“美国 Microsoft公司”,那么我们可以看成微软的bing搜索引擎的蜘蛛的第一次到来。搜索引擎根据robots.txt的设定,知道了哪些允许抓取,哪些不希望被抓取,那它就在这个网站上开工了,“日志2”显示的是bing首先抓取了该网址的主页(斜杠/意为主页)。 203.208.60.197 - - [17/Nov/2009:13:28:04 +0800] “GET /icof/102104/102104124/4b2b6b30242458d2012424d38cd77283.html HTTP/1.1” 200 5813--日志3 203.208.60.194 - - [13/Nov/2009:09:02:46 +0800] “GET /login/ HTTP/1.1” 200 8191 --日志4 66.249.67.50 - - [13/Nov/2009:22:44:12 +0800] “GET /icof/102104/102104112/4b2b6b30242458d2012424c8733a67f6.html HTTP/1.1” 200 5731 --日志5 把IP 203.208.60.194和203.208.60.197输入到IP138等查询系统可以看出,这两个IP对应的都是“谷歌(中国)公司”。从这里我们可以看出,谷歌(中国)把蜘蛛程序放在多台服务器上,有一个IP段都属于google中国的搜索引擎。另外有意思的是,“日志5”所对应的IP是 66.249.67.50,查询其归属,是“美国加利福尼亚州山景市谷歌公司”。从“日志4”和“日志5”看出,在11月13号,谷歌中国和美国的蜘蛛同时来到了该网站进行抓取。大公司的搜索引擎蜘蛛都应该是这样吧,协同工作。 202.160.178.146 - - [17/Nov/2009:13:29:44 +0800] “GET /catalogOfYongle/402881872323df84012323e0f0be00ab.html HTTP/1.0” 200 45002 --日志6 把“日志6”里面对应的IP地址202.160.178.146 拿去查询,查询系统直接就很精确地告诉你结果为“雅虎中国 yahoo中国蜘蛛”,说明雅虎中国搜索引擎的蜘蛛也对该网站进行了抓取。 总的来说,网站的访问日志记录了搜索引擎到来抓取的详细信息。多观察日志文件、多熟悉每个搜索引擎所在的IP范围,就可以大致对各家搜索引擎对你的网站的收录有一个了解。最重要的是,内容为王,搜索引擎喜欢原创内容较多、更新较快的网站,多进行远程内容的发布吧,搜索引擎蜘蛛会经常光顾你网站的,只怕到时候塞爆你的日志文件 。