做SEO时需要经常分析搜索引擎的蜘蛛爬行日志,面对海量日志时,如果能把蜘蛛日志从Nginx独立分离出来就可以很方便地分析了,下面提供简单有效的方法
// 在http段使用map定义变量$ua_log
http { ... map $http_user_agent $ua_log { default ''; ~*(Spiders|Robots|Crawler) "-spiders"; } }
// 在location下面添加
location / { ... if ($time_iso8601 ~ "^(d{4})-(d{2})-(d{2})") { set $year $1; set $month $2; set $day $3; } if ($http_user_agent ~* "spider" ) { access_log /www.2kb.com/logs/$host-$year-$month-$day$ua_log.log; } }
上面只是基本配置,如果访问量大,还需要作优化处理
参考百度蜘蛛IP段定义,只是根据经验判断
220.181.68.*,此ip段为降权蜘蛛,如果此蜘蛛经常访问网站,那要注意了,有降权和k站风险了。 123.125.68.*,此ip段也为降权蜘蛛,通常由于网站作弊会引起它的关注,有降权和k站风险。 203.208.60.*,此ip段为异常蜘蛛,通常由于网站服务器问题或其他违规行为会引起它来爬取。 210.72.225.*,此ip段为日常巡逻蜘蛛,只要网站没有问题,没有违规操作就行。 123.125.71.*,此ip段为低权重蜘蛛,可作为收录判定。 220.181.108.*,此ip段为权重蜘蛛,如果此蜘蛛频繁光顾,那么网站收录会有提高。如果频繁光顾网站却不收录,那么要注意是否网站质量不高,内容是否很差。 121.14.89.*,此ip段为新站考察蜘蛛,通常有它光顾的时候,网站基本上是没有排名的。 123.125.66.*和220.181.7.*,此ip段为预备抓取蜘蛛,这两个ip段表示蜘蛛要开始抓取网站、抓取页面了,不用过多关注。
2KB项目(www.2kb.com,源码交易平台),提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务