根据网站访问日志看SEO爬虫到来-网站建设 ERP系统 OA系统 PHP开发-采丰网络工作室

根据网站访问日志看SEO爬虫到来

类别: 技术文章 2023-09-06

通常，我们不太清楚搜索引擎蜘蛛何时首次访问自己的网站，也难以确定首次访问后蜘蛛后续的访问频率。
从搜索引擎前端来看，通过快照（cache）能知晓搜索引擎对网站某一网页的收录时间，但这无法全面统计搜索引擎对全站的抓取情况。不过，借助网站详细的访问日志，能获取一些线索。以Apache服务器的Access Log访问日志为例：
65.55.106.108 - - ［21/Nov/2009:15:01:10 +0800］ “GET /robots.txt HTTP/1.1” 200 150 ---日志1
65.55.106.108 - - ［21/Nov/2009:15:02:09 +0800］ “GET / HTTP/1.1” 200 4888 ---日志2
几乎所有市面上的搜索引擎都遵循一个规则：依据网站根目录下的robots.txt，决定抓取哪些网页、不抓取哪些网页。因此，可在访问日志文件中搜索“robots.txt”，大致确定搜索引擎的访问时间。之所以说是大致确定，是因为同一个搜索引擎可能会多次读取robots文件，一般将最早的相关日志记录视为该搜索引擎首次访问的时间。从上述“日志1”可知，某搜索引擎于11月21号对库吧网（www.libzone.cn）进行了首次抓取。将IP地址65.55.106.108输入到IP138或其他IP查询系统，可知该IP地址属于“美国Microsoft公司”，由此可推断微软的bing搜索引擎蜘蛛首次到访。搜索引擎依据robots.txt的设定，明确了允许抓取和不希望被抓取的内容后，便开始在网站抓取。“日志2”显示，bing首先抓取了网站主页（斜杠“/”代表主页）。
203.208.60.197 - - ［17/Nov/2009:13:28:04 +0800］ “GET /icof/102104/102104124/4b2b6b30242458d2012424d38cd77283.html HTTP/1.1” 200 5813--日志3
203.208.60.194 - - ［13/Nov/2009:09:02:46 +0800］ “GET /login/ HTTP/1.1” 200 8191 --日志4
66.249.67.50 - - ［13/Nov/2009:22:44:12 +0800］ “GET /icof/102104/102104112/4b2b6b30242458d2012424c8733a67f6.html HTTP/1.1” 200 5731 --日志5
将IP 203.208.60.194和203.208.60.197输入到IP138等查询系统，可知这两个IP均属于“谷歌（中国）公司”。由此可见，谷歌（中国）将蜘蛛程序部署在多台服务器上，存在一个属于谷歌中国搜索引擎的IP段。此外，“日志5”对应的IP是66.249.67.50，经查询，其归属为“美国加利福尼亚州山景市谷歌公司”。从“日志4”和“日志5”可看出，11月13号，谷歌中国和美国的蜘蛛同时对该网站进行了抓取。大公司的搜索引擎蜘蛛或许都采用这种协同工作的模式。
202.160.178.146 - - ［17/Nov/2009:13:29:44 +0800］ “GET /catalogOfYongle/402881872323df84012323e0f0be00ab.html HTTP/1.0” 200 45002 --日志6
将“日志6”中的IP地址202.160.178.146拿去查询，查询系统直接明确告知结果为“雅虎中国yahoo中国蜘蛛”，这表明雅虎中国搜索引擎的蜘蛛也对该网站进行了抓取。
总体而言，网站的访问日志记录了搜索引擎抓取的详细信息。多观察日志文件，熟悉每个搜索引擎的IP范围，便能大致了解各家搜索引擎对网站的收录情况。最重要的是，内容是关键，搜索引擎偏好原创内容丰富、更新频繁的网站。多发布远程内容，搜索引擎蜘蛛便会经常访问网站，届时可能会让日志文件爆满。

上一条: 谈谈百度大更新排名下降原因之分析

下一条: SEO如何塑造产品品牌

采丰网络

资讯详情

根据网站访问日志看SEO爬虫到来