开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 5 天,点击查看活动详情
摘要
有一些部分引用官方的解答可能更加适合和标准。我这边主要是总结日志分析相关的所有内容,一些是官方的解答,一些是自己的总结。
关于HTTPS常见问题
百度已发布HTTPS全流程支持方案,可是还有很多站长们对HTTPS改造存有疑问,下面一起来看下官方解答:
Q:站点是不是一定要做HTTPS?
是否HTTPS化,要看站点具体需求;从网站安全和用户体验上来讲,HTTPS站点更为安全优质,且百度搜索在索引的时候会考虑优先展现用户体验较好的页面;总体来讲,如果条件允许建议做HTTPS。
Q:站点使用平台HTTPS认证工具,有什么收益?
通过HTTPS认证后,站点在百度搜索的所有快照都会变成HTTPS格式,蜘蛛也会优先抓取HTTPS的链接,让用户在搜索中获得更安全的链接
Q:站点使用平台HTTPS认证工具,有什么要求?
1、保证HTTPS站点正常访问,且页面内引入资源为HTTPS格式,包括引入的视频、图片、CSS、JS等元素;
2、如果站点存在HTTP和HTTPS两种协议的页面,必须将HTTP的URL 301到HTTPS的URL上,仅有HTTPS站点的可以直接认证;
3、必须保证HTTP站点与HTTPS的链接一一对应,没有HTTPS对应的HTTP链接可能会被判断成死链接;
Q:如果站点没有全站HTTPS怎么办?
这种情况一般,没有全站HTTPS,申请站长平台HTTPS认知是不会通过的,但是如果系统没有检测到这个情况而通过验证的话,会导致没改造的这部分页面产生死链,所以大家在认证前一定要检测好
Q: 站点使用平台HTTPS认证工具后,如果不想做HTTPS站了,又如何退回呢?
站点通过认证后,只需要点击退场按钮,就可以退回到http站点了;
需要强调的是,点击回退按钮后,要等到显示回退成功了再做其他操作,否则有可能导致网站产生死链接。
Q:怎么样从日志中分析http劫持?
日志中通常是分析不出来的,之前TV猫分享过,TV猫能分析出来是因为发现http劫持了,后面加了一个参数,这个参数不是网站自己加的,是(黑客)加了一个,参数后面跟了一个。
Q:很多网站不仅仅流量来自于百度,还有极少一部分流量来自于其他的厂商,比如说神马360,云加速是怎么处理的?
国内的现状,百度在技术这个方面走得最前面,对于ADS整个后端的支持,是做的比较靠前的,云加速服务器会从源上区分,识别爬虫还是厂商抓取,并根据不同的来源,判断抓取对https的友好度,从后端上推荐内容。
Q:云加速单个的UR缓存问题不支持单个刷新?
是支持的。
搜索引擎蜘蛛不抓同IP?剖析蜘蛛抓取运行
通过ip段来分析,不同的ip端代表着不同的蜘蛛,可以清楚的知道这个蜘蛛是来做什么的。
我们做网站的都知道互联网上的页面都是由蜘蛛抓取的,其实蜘蛛自身就是一段代码依次,当互联网出 现新页面时蜘蛛就会过去爬。因为互联网每天将发生几千亿个页面,那么一个蜘蛛是相对没法在短时间内爬完的,所以搜刮引擎会发生少量的蜘蛛尽能够的爬完全部 互联网。每个蜘蛛代表的意义又分歧,那么我们如何知道哪些蜘蛛是抓取首页,哪些是抓取内页呢?
百度爬虫
文章仅供参考让对IIS日记各引擎的蜘蛛IP有个更深的了解,,依据分歧的IP我们可以剖析网站是个如何的形状.下面就依照IIS日记上的百度蜘蛛IP为例:
下面就依照IIS日记上的百度蜘蛛IP为例:
123.125.68.* 这个蜘蛛经常来,其余来的少,表现网站能够要进入沙盒了,或被者降权。
220.181.68.* 每天这个IP 段只增不减很有能够进沙盒或K站。
220.181.7.、123.125.66. 代表百度蜘蛛IP拜访,准备抓取你器械。
121.14.89.* 这个ip段作为度过新站查询拜访期。
203.208.60.* 这个ip段出现在新站及站点有不正常现象后。
210.72.225.* 这个ip段不连续巡查各站。
125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要形成成分,是新上线站较多,还有应用过站长搜刮引擎优化对象,或SEO技巧综合检测形成的。
220.181.108.95 这个是百度抓取首页的公用IP,如是220.181.108段的话,基原本说你的网站会每天隔夜快照,相对错不了的,我保证。
220.181.108.92 同上98%抓取首页,能够还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或收集文章。
220.181.108.91 属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.75 重点抓取更新文章的内页到达90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.86 公用抓取首页IP 权重段,通俗前去代码是304 0 0 代表未更新。
123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或收集文章。
123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或收集文章。
220.181.108.89 公用抓取首页IP 权重段,通俗前去代码是304 0 0 代表未更新。
220.181.108.94 公用抓取首页IP 权重段,通俗前去代码是304 0 0 代表未更新。
220.181.108.97 公用抓取首页IP 权重段,通俗前去代码是304 0 0 代表未更新。
220.181.108.80 公用抓取首页IP 权重段,通俗前去代码是304 0 0 代表未更新。
220.181.108.77 公用抓首页IP 权重段,通俗前去代码是304 0 0 代表未更新。
123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或收集文章。
注:以上IP尾数还有很多,但段位一样的123.125.71.* 段IP 代表抓取内页收录的权重比拟低.能够因为你收集文章或拼文章临时被收录但不放出来.(意思也就是说待定)。
220.181.108.83公用抓取首页IP 权重段,通俗前去代码是304 0 0 代表未更新。
220.181.108.* 段IP主如果抓取首页占80%,内页占30%,这此爬过的文章或首页,相对24小时内放出来和隔夜快照的,这点我可以保证!
抓取前去代码都200,前去304代表网站没更新。
好了,说了这么多,是否是看的眼花缭乱了,呵呵,不外不妨,只需你了解了他的意思,你就不会这么认为了,每天可以用日记剖析对象看看哪些ip段的蜘蛛来过你的网站,哪些内容被抓取了,就可以很好的了解你自己网站的哪些缺少和需求改良的中央了。
另外补充一些新的片段,蜘蛛也更新了ip
116.179.32.*:新版百度蜘蛛,高权重段,一般抓取文章页。IP段位于山西阳泉联通。百度云计算阳泉中心位于世界最大中文搜索引擎百度公司创始人李彦宏的家乡山西省阳泉经济开发区东区。
220.181.108.75:重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.77:专用抓首页IP权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.80:专用抓取首页IP权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.82:抓取tag页面。
220.181.108.83:专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.86:专用抓取首页IP权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.89:专用抓取首页IP权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.91:属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.92:同上98%抓取首页,可能还会抓取其他 (不是指内页),属于权重IP段此段爬过的文章或首页基本24小时放出来。
220.181.108.94:专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.93:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.95:这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的。
220.181.108.97:专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.115:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.119:专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.156 重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.158:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.184:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.180:重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.*:主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的!一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。
普通段:
60.172.229.61:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
61.129.45.72:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
61.135.162.*:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
61.135.168.*:抓取图片的百度蜘蛛。
121.14.89.* :这个ip段作为度过新站考察期,很少。通常有它光顾的时候,网站基本上是没有排名的。
123.15..:百度图片爬虫。
123.125.66.*:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
123.125.71.* 抓取内页收录的,权重较低,爬过此段的内页文章暂时被收录但不放出来,因不是原创或采集文章。
124.166.232.*:可能为新版新站专属百度蜘蛛。
125.90.88.*:广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的,没有多大用。
159.226.50.* :百度蜘蛛。
180.76.5.*:百度蜘蛛北京联通。
180.76.5.87:百度蜘蛛北京电信。
210.72.225.*:这个ip段不间断巡逻各站,就是路过一下。
220.181.7.*:代表百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
垃圾段:
百度自家
61.135.186.* :百度联盟爬虫,百度统计。
61.135.165.134:百度竞价蜘蛛北京联通。
61.135.169.*:百度公司内部专用IP;
111.206.198.*:百度渲染蜘蛛,专门抓取js、css和图片用的,百度站长工具落地着陆页检测IP。
111.206.221.*:百度渲染蜘蛛,专门抓取js、css和图片用的,百度站长工具落地着陆页检测IP。
117.34.74.66:百度竞价蜘蛛西安市电信。
118.122.188.194:百度竞价蜘蛛。
119.63.196.9:百度竞价蜘蛛。
123.125.67.* :百度站长工具的IP sitemap。
125.39.78.185:百度竞价蜘蛛天津联通。
203.119.241.*:百度主动推送的IP。
220.181.51.*:百度站长工具的IP sitemap。
220.181.108.120:抓取/robots.txt。
220.181.108.146:抓取/robots.txt。
沙盒
123.125.68.*:这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
180.76.15.*:降权蜘蛛,有这个ip说明网站不会在收录了,一直到这个ip段消失。
220.181.68.*:每天这个IP 段只增不减很有可能进沙盒或K站。
推荐十个日志分析工具
网站的SEO优化过程中不免会分析网站日志,网站日志的分析和诊断就像给网站看病一样,我们通过网站日志的分析,可以更加清楚的知道网站的健康状况,使用这些数据更有利于开展网站SEO优化。
通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。对于专业从事搜索引擎优化工作者而言,网站日志可以记录各搜索引擎蜘蛛机器人爬行网站的详细情况,例如:哪个IP的百度蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,以及访问页面时返回的HTTP状态码。
常见的蜘蛛名称:
Baiduspider:百度蜘蛛
Baiduspider-Image:百度图片蜘蛛
Googlebot:谷歌机器人
Googlebot-Image:谷歌图片机器人
360Spider:360蜘蛛
sogou spider:搜狗蜘蛛
一、网站日志的作用
1、通过网站日志可以了解蜘蛛对网站的基本爬取情况,可以知道蜘蛛的爬取轨迹和爬取量。
2、网站的更新频率也和网站日志中蜘蛛抓取的频率有关,一般来说更新频率越高,蜘蛛的抓取频率越高,而我们网站的更新不仅仅只是新内容的添加同时还有我们的微调操作。
3、我们可以根据网站日志的反应情况,对我们的空间的某些事情和问题提前进行预警,因为服务器如果出问题的话在网站日志中会第一时间反映出来,要知道服务器的稳定速度和打开速度两者都会直接影响我们的网站。
4、通过网站日志我们可以知道网站的那些页面是很受蜘蛛欢迎的,而哪些页面是蜘蛛连碰都不去碰的,同时我们还能发现有一些蜘蛛由于是过度爬取对我们的服务器资源损耗是很大的,我们要进行屏蔽工作。
二、如何下载网站日志
1、首先我们的空间要支持网站日志下载,这一点是很重要的,在购买空间时候需事先了解下是否支持日志下载,因为有的服务商是不提供这项服务的,如果支持的话空间后台一般都有日志WebLog日志下载这个功能把它下载到根目录在用FTP传到本地就可以,服务器的话可以设置将日志文件下载到指定路径。
2、这里有个很重要的问题,网站日志强烈建议设置成每小时生成一次,小型的企业站和页面内容较少的网站可以设置成一天,它默认是一天,如果内容多或者大型站设置成一天生成一次,那么一天只生成一个文件,这个文件会相当的大,我们有时电脑打开是会造成死机,设置的话找空间商协调设置即可。
三、网站日志数据分析
1、网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer、WPS表格等
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0;Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"
分析:
117.26.203.167访问ip;
02/May/2011:01:57:44 -0700访问日期 -时区;
GET/index.php HTTP/1.1根据HTTP/1.1协议抓取(域名下)/index.php这个页面(GET表示服务器动作);
500服务器响应状态码;
服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。
19967表示抓取了19967个字节;
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar表示访问者使用火狐浏览器及Alexa Toolbar等访问端信息;
2、如果你的日志里格式不是如此,则代表日志格式设置不同。
3、很多日志里可以看到 200 0 0和200 0 64则都代表正常抓取。
4、抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断,当然,我们希望百度蜘蛛每日抓取的次数越多越好。
5、有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。
6、我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。
7、蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页。
四、通过网站日志我们能知道什么?
1、我们买的空间是否能够稳定?
2、蜘蛛对我们的那些页面比较喜欢而对哪些不喜欢?
3、蜘蛛什么时候抓取我们的网站频繁,我们需要什么时候更新内容?
总结:
所以不管是新站还是老网站,不管你做百度还是Google我们都能通过网站日志分析出来搜索引擎蜘蛛抓取的情况;如果网站长时间收录有问题,那么我们也可以对比网站日志中的搜索引擎蜘蛛行为,来了解网站是哪方面出了问题;如果网站被封,或者被K,我们都可以通过观察网站日志的情况来了解原因出在什么地方。我们要看的网站日志的分析和诊断就像给网站看病一样,我们通过网站日志的分析,可以简单明了的就知道网站的健康状况,可以利于我们更好的做网站优化,所以对于真正的SEO高手而言,分析蜘蛛日志是最直观,最有效的额。
分享两款日志分析工具
我先简单介绍下这两款网站日志工具,iislog相对比较简单,日志分析很清晰,可以看下图。iislog能清晰的看到蜘蛛来访时间、蜘蛛类型、蜘蛛IP、链接方式、服务器返回的代码、最后是蜘蛛访问网站的地址,一目了然。
分享两款iis网站日志分析工具 光年日志分析工具和iislog日志分析工具
光年日志分析工具在分析的数据上做得更加细化,概要分析处可以看到各搜索引擎蜘蛛来访次数 、总停留时间(小时) 、总抓取量 以及占比的百分比。还能看到蜘蛛抓取了你网站的哪些目录以及页面,并且给了各搜索引擎蜘蛛IP抓取量一个排行,可以让你对来访蜘蛛更加了解,方便针对各搜索引擎做seo调整。
光年日志分析教程:www.seowhy.com/course/65
光年日志分析工具里面的关键词分析比较花瓶,本人经常使用都是没有数据的,是个摆设。最后一项状态码分析很好用,也是我使用光年日志分析工具最主要的原因,这里可以看到用户以及蜘蛛访问网站后返回的状态码以及对应页面,在这里可以很清晰的了解到蜘蛛和用户在访问你网站时候的体验程度,比如哪些页面或者文件打不开,返回了404状态码的对应页面和文件都会记录在这里。
分享两款iis网站日志分析工具 光年日志分析工具和iislog日志分析工具
本人喜欢将以上两款工具结合起来使用,这样分析出来的数据更加精准
光年日志分析的下载和安装
下载地址,如下:
xmkaifa.cn/gnanalyzer.rar
解压之后,就可以直接点击exe就可以打开,因为官方并没有给它提供安装包。
同时可以右键点击发送快捷方式到桌面,这样就不需要每次都去文件里边进行打开了。
软件的主界面:
另外我还提供一款软件是 爱站seo工具包,这个其实比光年日志分析工具是更好用的。
SEO中经常碰到的状态码
日志中的HTTP状态码都代表什么?
做SEO时,我们经常会在日志上看到类似这样的代码:
61.135.166.232 - - [31/Dec/2007:02:30:11 +0800] "GET /category21.html HTTP/1.1" 200 10968 "-" "Baiduspider+(+www.baidu.com/search/spid…)"
66.249.70.172 - - [31/Dec/2007:03:36:10 +0800] "GET /32_10_zh.html HTTP/1.1" 200 18395 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +www.google.com/bot.html)"
这里面需要知道的,就是那个奇怪的数字“200”(另外那个数字表示抓取的文件大小)。
“200”就是HTTP状态码。
SEO过程中最常见的HTTP状态码有:
-
200 - 服务器成功返回网页
-
404 - 请求的网页不存在
-
503 - 服务器超时
其他经常碰到的HTTP状态码列表如下:
HTTP状态码 摘要说明
成功2×× 成功处理了请求的状态码。
200 服务器已成功处理了请求并提供了请求的网页。
204 服务器成功处理了请求,但没有返回任何内容。
重定向3×× 每次请求中使用重定向不要超过 5 次。
301 请求的网页已永久移动到新位置。当URLs发生变化时,使用301代码。搜索引擎索引中保存新的URL。
302 请求的网页临时移动到新位置。搜索引擎索引中保存原来的URL。
304 如果网页自请求者上次请求后没有更新,则用304代码告诉搜索引擎机器人,可节省带宽和开销。
客户端错误4×× 表示请求可能出错,妨碍了服务器的处理。
400 服务器不理解请求的语法。
403 服务器拒绝请求。
404 服务器找不到请求的网页。服务器上不存在的网页经常会返回此代码。
410 请求的资源永久删除后,服务器返回此响应。该代码与 404(未找到)代码相似,但在资源以前存在而现在不存在的情况下,有时用来替代404 代码。如果资源已永久删除,应当使用 301 指定资源的新位置。
服务器错误5×× 表示服务器在处理请求时发生内部错误。这些错误可能是服务器本身的错误,而不是请求出错。
500 服务器遇到错误,无法完成请求。
503 服务器目前无法使用(由于超载或停机维护)。通常,这只是暂时状态。
**
网站日志分析能反馈什么?
一个seo工作人员,特别是那些大型网站的seo人员来说,能独立分析网站日志是一种必不可少的技能,因为大型的网站栏目结构以及页面非常的繁杂,蜘蛛也是少不了会频繁访问,从蜘蛛给网站留下的一些痕迹上面能够掌控网站不少的信息,这对网站优化运营是一种非常必要的参考,前面小星星的文章里面也对蜘蛛状态码也进行了初步的介绍,这篇文章也对网站日志能读取到的信息作出了总结:
分析网站日志能获取到的信息总结:
一、可以看出网站页面有哪些搜索引擎的蜘蛛抓取
从网站日志里面可以看出网站被哪些蜘蛛所抓取,每个类型的蜘蛛也都属于自己的特殊标头,各大搜索引擎的标头特征如下所示:
百度蜘蛛:baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!
有道蜘蛛:YoudaoBot,YodaoBot
搜狗蜘蛛:Sogou News Spider
MSN蜘蛛:msnbot,msnbot-media
必应蜘蛛:bingbot
提醒:网站的日志里面也有可能会出现一些其它私人开发的抓取器所抓取,由此我们可能会发现一些奇怪的蜘蛛抓取痕迹。另外百度也有属于自己的匿名蜘蛛,我们也要注意区分注意。
二、可以统计网站目录蜘蛛抓取的总量
通过抓取总量的分析可以对比出网站哪个目录更受搜索引擎的关注,一般来说蜘蛛抓取越频繁的目录,site网站此目录的排名会相对靠前,我们也可通过目录的蜘蛛访问量来适当调整目录的结构,对于那些抓取压力较大但是不怎么重要的目录也可适当缩减链接入口,以免阻碍给其它重要目录的抓取。
三、网站页面的抓取。
可以从中看出哪个页面蜘蛛是否抓取了一些没有被收录价值的页面,或者老是重复的抓取了这些页面等,那么同理要先采取措施予以频闭,要么是运用到nofollow标签,要么是robots文件等,这样就会降低因为搜索引擎抓取到大量相关性低或者质量度差的页面而影响到页面的权重传递这样的不利影响。
四、蜘蛛平均抓取页面的次数、页面平均停留时间以及抓取的数量。
(1)、平均每次抓取页面数=总抓取量/访问次数
(2)、单页抓取停留时间
(3)、页面平均停留时间=总停留时间/访问次数
从以上的分析能够很清晰的看出蜘蛛是否频繁关注自己的网站,而且抓取的页面越多,深度越足也能反映出网站的活跃度高,而且在停留的时间上面也能初步看出网站的页面和文章是否新颖或者原创,这是页面质量度的一个体现。
五、可以一览蜘蛛方面各网页的状态码
状态码是网站日志里面最重要的一个方面了,这是蜘蛛对于网站页面状态最直观的反映,从这些状态码中可以看出更多详细的信息。
六、了解网站日志蜘蛛的来访时间
对网站日常日志分析总结中,可以很直观的看出每天具体是哪个时间段是蜘蛛访问的高峰时期,我们为了迎合搜索引擎,也可以相应调整网站的更新时间,争取在蜘蛛活跃度最高的时间段更新文章,这样对自己网站的收录会有非常大的帮助,甚至还有可能达到秒收的效果!
总之,分析网站日志是一个非常有意义的技能,特别是网站建立的初期和运营遇到状况的时候,分析日志这个方面就更是尤为重要,当然再碰到信息量特别大的时候,单手动看效果是不好的,这里推荐光年日志分析工具,功能非常强大,基本能很好的满足一般网站的分析需求