通常,我们不太清楚搜索引擎蜘蛛何时首次访问自己的网站,也难以确定首次访问后蜘蛛后续的访问频率。
从搜索引擎前端来看,通过快照(cache)能知晓搜索引擎对网站某一网页的收录时间,但这无法全面统计搜索引擎对全站的抓取情况。不过,借助网站详细的访问日志,能获取一些线索。以Apache服务器的Access Log访问日志为例:
65.55.106.108 - - [21/Nov/2009:15:01:10 +0800] “GET /robots.txt HTTP/1.1” 200 150 ---日志1
65.55.106.108 - - [21/Nov/2009:15:02:09 +0800] “GET / HTTP/1.1” 200 4888 ---日志2
几乎所有市面上的搜索引擎都遵循一个规则:依据网站根目录下的robots.txt,决定抓取哪些网页、不抓取哪些网页。因此,可在访问日志文件中搜索“robots.txt”,大致确定搜索引擎的访问时间。之所以说是大致确定,是因为同一个搜索引擎可能会多次读取robots文件,一般将最早的相关日志记录视为该搜索引擎首次访问的时间。从上述“日志1”可知,某搜索引擎于11月21号对库吧网(www.libzone.cn)进行了首次抓取。将IP地址65.55.106.108输入到IP138或其他IP查询系统,可知该IP地址属于“美国Microsoft公司”,由此可推断微软的bing搜索引擎蜘蛛首次到访。搜索引擎依据robots.txt的设定,明确了允许抓取和不希望被抓取的内容后,便开始在网站抓取。“日志2”显示,bing首先抓取了网站主页(斜杠“/”代表主页)。
203.208.60.197 - - [17/Nov/2009:13:28:04 +0800] “GET /icof/102104/102104124/4b2b6b30242458d2012424d38cd77283.html HTTP/1.1” 200 5813--日志3
203.208.60.194 - - [13/Nov/2009:09:02:46 +0800] “GET /login/ HTTP/1.1” 200 8191 --日志4
66.249.67.50 - - [13/Nov/2009:22:44:12 +0800] “GET /icof/102104/102104112/4b2b6b30242458d2012424c8733a67f6.html HTTP/1.1” 200 5731 --日志5
将IP 203.208.60.194和203.208.60.197输入到IP138等查询系统,可知这两个IP均属于“谷歌(中国)公司”。由此可见,谷歌(中国)将蜘蛛程序部署在多台服务器上,存在一个属于谷歌中国搜索引擎的IP段。此外,“日志5”对应的IP是66.249.67.50,经查询,其归属为“美国加利福尼亚州山景市谷歌公司”。从“日志4”和“日志5”可看出,11月13号,谷歌中国和美国的蜘蛛同时对该网站进行了抓取。大公司的搜索引擎蜘蛛或许都采用这种协同工作的模式。
202.160.178.146 - - [17/Nov/2009:13:29:44 +0800] “GET /catalogOfYongle/402881872323df84012323e0f0be00ab.html HTTP/1.0” 200 45002 --日志6
将“日志6”中的IP地址202.160.178.146拿去查询,查询系统直接明确告知结果为“雅虎中国yahoo中国蜘蛛”,这表明雅虎中国搜索引擎的蜘蛛也对该网站进行了抓取。
总体而言,网站的访问日志记录了搜索引擎抓取的详细信息。多观察日志文件,熟悉每个搜索引擎的IP范围,便能大致了解各家搜索引擎对网站的收录情况。最重要的是,内容是关键,搜索引擎偏好原创内容丰富、更新频繁的网站。多发布远程内容,搜索引擎蜘蛛便会经常访问网站,届时可能会让日志文件爆满 。