计算机/互联网
计算机/互联网 > > 详情
Nginx为搜索引擎蜘蛛单独配置日志
2019-06-20 01:51 2KB.COM 阅读:765

44.png

做SEO时需要经常分析搜索引擎的蜘蛛爬行日志,面对海量日志时,如果能把蜘蛛日志从Nginx独立分离出来就可以很方便地分析了,下面提供简单有效的方法


// 在http段使用map定义变量$ua_log

   http
    { 
        ...
        map $http_user_agent $ua_log {
        default '';
        ~*(Spiders|Robots|Crawler) "-spiders";
        }
    }

// 在location下面添加

location / { 
        ...
			
	if ($time_iso8601 ~ "^(d{4})-(d{2})-(d{2})") {
		set $year $1;
		set $month $2;
		set $day $3;
			}
	if ($http_user_agent ~* "spider" ) {
	      access_log /www.2kb.com/logs/$host-$year-$month-$day$ua_log.log;
	}
 }


上面只是基本配置,如果访问量大,还需要作优化处理


参考百度蜘蛛IP段定义,只是根据经验判断

220.181.68.*,此ip段为降权蜘蛛,如果此蜘蛛经常访问网站,那要注意了,有降权和k站风险了。
123.125.68.*,此ip段也为降权蜘蛛,通常由于网站作弊会引起它的关注,有降权和k站风险。
203.208.60.*,此ip段为异常蜘蛛,通常由于网站服务器问题或其他违规行为会引起它来爬取。
210.72.225.*,此ip段为日常巡逻蜘蛛,只要网站没有问题,没有违规操作就行。
123.125.71.*,此ip段为低权重蜘蛛,可作为收录判定。
220.181.108.*,此ip段为权重蜘蛛,如果此蜘蛛频繁光顾,那么网站收录会有提高。如果频繁光顾网站却不收录,那么要注意是否网站质量不高,内容是否很差。
121.14.89.*,此ip段为新站考察蜘蛛,通常有它光顾的时候,网站基本上是没有排名的。
123.125.66.*和220.181.7.*,此ip段为预备抓取蜘蛛,这两个ip段表示蜘蛛要开始抓取网站、抓取页面了,不用过多关注。



2KB项目(www.2kb.com,源码交易平台),提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务

上一篇 下一篇

首页

搜索

订单

购物车

我的