用Excel分析网站IIS日志

新站不抓取之日志用Excel分析-精辟

作为一个网站,不管是百度还是谷歌还是其它搜索引擎,都有遇到这种情况,那就是网站不收录.

如果没有收录有如下原因:

1.是否来抓取

2.文章更新频率

3.网站内容质量

4.是否为新站

在这里,深圳jax SEO来分析原因,主要是针对新站不收录的原因分析,在搜索引擎中去site我们的网站,当发现收录的网页数量一直不变或者有收录下降的时候,我们可能要考虑到蜘蛛有没有来我们的网站抓取了,如何分析呢?

分析IIS日志,这里以我的博客日志Apache为例:

1.先下载wwwlogs文件夹中最近的IIS日志(我用的万网主机)

万网日志IIS下载

2.然后解压出来,你会发现文件很乱,不要紧

解压IIS日志

3.在这里,你还看不懂,而且很乱,再打开Excel(我的是Office2007,不同的版本不同的菜单哦),点击“数据>>自文本”,可能你的菜单不同,不管怎么样,就是要导入数据。

导入日志到excel

4.进入导入数据界面后,先选择“所有文件”,再点击你下载的日志导入进来

IIS日志导入注意事项

5.点击导入,在弹出的页面中,默认不变,点击下一步

分隔符号导入

6.将“空格”前面的勾打上

选择空格以区分数据

7.点击下一步

常规选项导入IIS

8.点击完成,再确定,然后你会在excel中看到刚刚.log中的数据已经分类好了

分类好日志数据

到这里后,还远远不够,我们还要进行分析

分析之前先解释下各数据的含义吧:

从左往右,分别用颜色标示出来

123.125.143.140 [09/Nov/2016:01:48:54 +0800] “GET / HTTP/1.1” 301 20 “-“ “Mozilla/5.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/600.1.3 (KHTML, like Gecko) Version/8.0 Mobile/12A4345d Safari/600.1.4” bxu2341890191.my3w.com text/html “/usr/home/bxu2341890191/htdocs/index.php” 342414

A(123.125.143.140):远程主机的地址,如果你想知道这个IP地址的域名,可通过nslookup或者host命令来查看。如果你想让Apache自己找出这个IP的主机名,可以打开这个开关:HostnameLookups。(建议最好不要打开,会影响Apache记录服务器日志的速度)

B(-):空白,用一个“-”占位符替代。实际上绝大多数时候这一项都是如此。这个位置用于记录浏览者的标识,这不只是浏览者的登陆名字,而是浏览者的email地址或者其他唯一标识符。这个信息由identd返回,或者直接由浏览器返回。因为涉及到用户隐私,目前大多数网站的日志这项也是空的

C(-):空白,用一个“-”占位符替代。用于记录浏览者进行身份验证时提供的名字。大多数记录都是空白的。

D([09/Nov/2016:01:48:54):请求的时间。意思就是用户或者蜘蛛来网站的时间

E(+800]):表示服务器所处时区

F(“GET / HTTP/1.1”):是整个日志记录中最有用的信息,它告诉我们服务器收到的是一个什么样的请求。经常出现有GET与POST两种。

GET:从服务器上获取数据

POST:向服务器传送数据

G(301):状态码,返回码。告诉我们请求是否成功,或者遇到了什么样的错误

H(20):表示发送给客户端的总字节数

I(“-“):记录的是客户在提出请求时所在的目录或URL

J(“Mozilla/5.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/600.1.3 (KHTML, like Gecko) Version/8.0 Mobile/12A4345d Safari/600.1.4”):表示客户端详细信息

K(bxu2341890191.my3w.com):对该请求提供服务的标准ServerName,一般为主机配置

L(text/html):http头里的content-type

M(“/usr/home/bxu2341890191/htdocs/index.php”):文件名

N(342414):服务器处理本请求所用时间,以微秒为单位

1秒(s)=1000亳秒(ms)

1亳秒(ms)=1000微秒(μs)

1微秒(μs)=1000纳秒(ns)

9.再在Excel中给每一列添加标题,再点“筛选”,把“列”中都相同的数据可以删除,以及对于我们分析没有参考意义的数据删除,结果为:

IIS日志标题

IIS日志其含义

IIS日志其所有标题含义

10.将访问后台页面的链接信息删除

11.先从404页面开始分析,将状态码定位到404,根据页面去判断网页是否真的有404页面

12.再分析百度蜘蛛,过滤到百度蜘蛛来访的页面,来分析百度蜘蛛来抓取了哪些页面,以及什么时候来抓取的,以便于掌握蜘蛛来我们网站的时间,然后在以后发布文章时注意在蜘蛛来之前发布文章,这样有利于蜘蛛抓取新鲜内容。

13.再分析其它蜘蛛来网站是否有价值,是否会带来流量,无价值的蜘蛛可以在robots里面屏蔽掉即可。

经过分析我的日志,蜘蛛是没有来抓取,即使来了,也抓取的比较少,做SEO不要急燥,保持平常心态,这一段沙盒时间过,相信蜘蛛会再来抓取,下次再分享蜘蛛来后的日志分析报告。

相信看到这里,你也可以下载你网站日志来分析了吧。

不断学习,才能进步!

 

 

《新站不抓取之日志用Excel分析-精辟》有1条留言

留下评论