开启掘金成长之旅！这是我参与「掘金日新计划 · 2 月更文挑战」的第 5 天，点击查看活动详情

摘要

有一些部分引用官方的解答可能更加适合和标准。我这边主要是总结日志分析相关的所有内容，一些是官方的解答，一些是自己的总结。

关于HTTPS常见问题

百度已发布HTTPS全流程支持方案，可是还有很多站长们对HTTPS改造存有疑问，下面一起来看下官方解答：

Q:站点是不是一定要做HTTPS？

是否HTTPS化，要看站点具体需求；从网站安全和用户体验上来讲，HTTPS站点更为安全优质，且百度搜索在索引的时候会考虑优先展现用户体验较好的页面；总体来讲，如果条件允许建议做HTTPS。

Q:站点使用平台HTTPS认证工具，有什么收益？

通过HTTPS认证后，站点在百度搜索的所有快照都会变成HTTPS格式，蜘蛛也会优先抓取HTTPS的链接，让用户在搜索中获得更安全的链接

Q:站点使用平台HTTPS认证工具，有什么要求？

1、保证HTTPS站点正常访问，且页面内引入资源为HTTPS格式，包括引入的视频、图片、CSS、JS等元素；

2、如果站点存在HTTP和HTTPS两种协议的页面，必须将HTTP的URL 301到HTTPS的URL上，仅有HTTPS站点的可以直接认证；

3、必须保证HTTP站点与HTTPS的链接一一对应，没有HTTPS对应的HTTP链接可能会被判断成死链接；

Q:如果站点没有全站HTTPS怎么办?

这种情况一般，没有全站HTTPS，申请站长平台HTTPS认知是不会通过的，但是如果系统没有检测到这个情况而通过验证的话，会导致没改造的这部分页面产生死链，所以大家在认证前一定要检测好

Q: 站点使用平台HTTPS认证工具后，如果不想做HTTPS站了，又如何退回呢？

站点通过认证后，只需要点击退场按钮，就可以退回到http站点了；

需要强调的是，点击回退按钮后，要等到显示回退成功了再做其他操作，否则有可能导致网站产生死链接。

Q:怎么样从日志中分析http劫持？

日志中通常是分析不出来的，之前TV猫分享过，TV猫能分析出来是因为发现http劫持了，后面加了一个参数，这个参数不是网站自己加的，是（黑客）加了一个，参数后面跟了一个。

Q：很多网站不仅仅流量来自于百度，还有极少一部分流量来自于其他的厂商，比如说神马360，云加速是怎么处理的？

国内的现状，百度在技术这个方面走得最前面，对于ADS整个后端的支持，是做的比较靠前的，云加速服务器会从源上区分，识别爬虫还是厂商抓取，并根据不同的来源，判断抓取对https的友好度，从后端上推荐内容。

Q:云加速单个的UR缓存问题不支持单个刷新？

是支持的。

搜索引擎蜘蛛不抓同IP？剖析蜘蛛抓取运行

通过ip段来分析，不同的ip端代表着不同的蜘蛛，可以清楚的知道这个蜘蛛是来做什么的。

我们做网站的都知道互联网上的页面都是由蜘蛛抓取的，其实蜘蛛自身就是一段代码依次，当互联网出现新页面时蜘蛛就会过去爬。因为互联网每天将发生几千亿个页面，那么一个蜘蛛是相对没法在短时间内爬完的，所以搜刮引擎会发生少量的蜘蛛尽能够的爬完全部互联网。每个蜘蛛代表的意义又分歧，那么我们如何知道哪些蜘蛛是抓取首页，哪些是抓取内页呢?

百度爬虫

文章仅供参考让对IIS日记各引擎的蜘蛛IP有个更深的了解，，依据分歧的IP我们可以剖析网站是个如何的形状.下面就依照IIS日记上的百度蜘蛛IP为例:

下面就依照IIS日记上的百度蜘蛛IP为例:

123.125.68.* 这个蜘蛛经常来,其余来的少,表现网站能够要进入沙盒了，或被者降权。

220.181.68.* 每天这个IP 段只增不减很有能够进沙盒或K站。

220.181.7.、123.125.66. 代表百度蜘蛛IP拜访，准备抓取你器械。

121.14.89.* 这个ip段作为度过新站查询拜访期。

203.208.60.* 这个ip段出现在新站及站点有不正常现象后。

210.72.225.* 这个ip段不连续巡查各站。

125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要形成成分，是新上线站较多，还有应用过站长搜刮引擎优化对象，或SEO技巧综合检测形成的。

220.181.108.95 这个是百度抓取首页的公用IP，如是220.181.108段的话，基原本说你的网站会每天隔夜快照，相对错不了的，我保证。

220.181.108.92 同上98%抓取首页，能够还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

123.125.71.106 抓取内页收录的，权重较低，爬过此段的内页文章不会很快放出来，因不是原创或收集文章。

220.181.108.91 属于综合的，主要抓取首页和内页或其他，属于权重IP 段，爬过的文章或首页基本24小时放出来。

220.181.108.75 重点抓取更新文章的内页到达90%，8%抓取首页，2%其他。权重IP 段，爬过的文章或首页基本24小时放出来。

220.181.108.86 公用抓取首页IP 权重段，通俗前去代码是304 0 0 代表未更新。

123.125.71.95 抓取内页收录的，权重较低，爬过此段的内页文章不会很快放出来，因不是原创或收集文章。

123.125.71.97 抓取内页收录的，权重较低，爬过此段的内页文章不会很快放出来，因不是原创或收集文章。

220.181.108.89 公用抓取首页IP 权重段，通俗前去代码是304 0 0 代表未更新。

220.181.108.94 公用抓取首页IP 权重段，通俗前去代码是304 0 0 代表未更新。

220.181.108.97 公用抓取首页IP 权重段，通俗前去代码是304 0 0 代表未更新。

220.181.108.80 公用抓取首页IP 权重段，通俗前去代码是304 0 0 代表未更新。

220.181.108.77 公用抓首页IP 权重段，通俗前去代码是304 0 0 代表未更新。

123.125.71.117 抓取内页收录的，权重较低，爬过此段的内页文章不会很快放出来，因不是原创或收集文章。

注：以上IP尾数还有很多，但段位一样的123.125.71.* 段IP 代表抓取内页收录的权重比拟低.能够因为你收集文章或拼文章临时被收录但不放出来.(意思也就是说待定)。

220.181.108.83公用抓取首页IP 权重段，通俗前去代码是304 0 0 代表未更新。

220.181.108.* 段IP主如果抓取首页占80%，内页占30%，这此爬过的文章或首页，相对24小时内放出来和隔夜快照的，这点我可以保证!

抓取前去代码都200，前去304代表网站没更新。

好了，说了这么多，是否是看的眼花缭乱了，呵呵，不外不妨，只需你了解了他的意思，你就不会这么认为了，每天可以用日记剖析对象看看哪些ip段的蜘蛛来过你的网站，哪些内容被抓取了，就可以很好的了解你自己网站的哪些缺少和需求改良的中央了。

另外补充一些新的片段，蜘蛛也更新了ip

116.179.32.*：新版百度蜘蛛，高权重段，一般抓取文章页。IP段位于山西阳泉联通。百度云计算阳泉中心位于世界最大中文搜索引擎百度公司创始人李彦宏的家乡山西省阳泉经济开发区东区。

220.181.108.75：重点抓取更新文章的内页达到90%，8%抓取首页，2%其他。权重IP 段，爬过的文章或首页基本24小时放出来。

220.181.108.77：专用抓首页IP权重段，一般返回代码是304 0 0 代表未更新。

220.181.108.80：专用抓取首页IP权重段，一般返回代码是304 0 0 代表未更新。

220.181.108.82：抓取tag页面。

220.181.108.83：专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。

220.181.108.86：专用抓取首页IP权重段，一般返回代码是304 0 0 代表未更新。

220.181.108.89：专用抓取首页IP权重段，一般返回代码是304 0 0 代表未更新。

220.181.108.91：属于综合的，主要抓取首页和内页或其他，属于权重IP 段，爬过的文章或首页基本24小时放出来。

220.181.108.92：同上98%抓取首页，可能还会抓取其他 (不是指内页)，属于权重IP段此段爬过的文章或首页基本24小时放出来。

220.181.108.94：专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。

220.181.108.93：重点抓取内页，爬过的文章或首页基本24小时放出来。

220.181.108.95：这个是百度抓取首页的专用IP，如是220.181.108段的话，基本来说你的网站会天天隔夜快照，绝对错不了的。

220.181.108.97：专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。

220.181.108.115：重点抓取内页，爬过的文章或首页基本24小时放出来。

220.181.108.119：专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。

220.181.108.156 重点抓取内页，爬过的文章或首页基本24小时放出来。

220.181.108.158：重点抓取内页，爬过的文章或首页基本24小时放出来。

220.181.108.184：重点抓取内页，爬过的文章或首页基本24小时放出来。

220.181.108.180：重点抓取内页，爬过的文章或首页基本24小时放出来。

220.181.108.*：主要是抓取首页占80%，内页占30%，这此爬过的文章或首页，绝对24小时内放出来和隔夜快照的！一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新，蜘蛛来过，如果是 200 0 64别担心这不是K站，可能是网站是动态的，所以返回就是这个代码。

普通段：

60.172.229.61：代表百度蜘蛛IP造访，准备抓取你东西，抓取网页的百度蜘蛛。

61.129.45.72：代表百度蜘蛛IP造访，准备抓取你东西，抓取网页的百度蜘蛛。

61.135.162.*：代表百度蜘蛛IP造访，准备抓取你东西，抓取网页的百度蜘蛛。

61.135.168.*：抓取图片的百度蜘蛛。

121.14.89.* ：这个ip段作为度过新站考察期，很少。通常有它光顾的时候，网站基本上是没有排名的。

123.15..：百度图片爬虫。

123.125.66.*：代表百度蜘蛛IP造访，准备抓取你东西，抓取网页的百度蜘蛛。

123.125.71.* 抓取内页收录的，权重较低，爬过此段的内页文章暂时被收录但不放出来，因不是原创或采集文章。

124.166.232.*：可能为新版新站专属百度蜘蛛。

125.90.88.*：广东茂名市电信也属于百度蜘蛛IP 主要造成成分，是新上线站较多，还有使用过站长工具，或SEO综合检测造成的，没有多大用。

159.226.50.* ：百度蜘蛛。

180.76.5.*：百度蜘蛛北京联通。

180.76.5.87：百度蜘蛛北京电信。

210.72.225.*：这个ip段不间断巡逻各站，就是路过一下。

220.181.7.*：代表百度蜘蛛IP造访，准备抓取你东西，抓取网页的百度蜘蛛。

垃圾段：

百度自家

61.135.186.* ：百度联盟爬虫，百度统计。

61.135.165.134：百度竞价蜘蛛北京联通。

61.135.169.*：百度公司内部专用IP；

111.206.198.*：百度渲染蜘蛛，专门抓取js、css和图片用的，百度站长工具落地着陆页检测IP。

111.206.221.*：百度渲染蜘蛛，专门抓取js、css和图片用的，百度站长工具落地着陆页检测IP。

117.34.74.66：百度竞价蜘蛛西安市电信。

118.122.188.194：百度竞价蜘蛛。

119.63.196.9：百度竞价蜘蛛。

123.125.67.* ：百度站长工具的IP sitemap。

125.39.78.185：百度竞价蜘蛛天津联通。

203.119.241.*：百度主动推送的IP。

220.181.51.*：百度站长工具的IP sitemap。

220.181.108.120：抓取/robots.txt。

220.181.108.146：抓取/robots.txt。

沙盒

123.125.68.*：这个蜘蛛经常来，别的来的少，表示网站可能要进入沙盒了，或被者降权。

180.76.15.*：降权蜘蛛，有这个ip说明网站不会在收录了，一直到这个ip段消失。

220.181.68.*：每天这个IP 段只增不减很有可能进沙盒或K站。

分享两款日志分析工具

我先简单介绍下这两款网站日志工具，iislog相对比较简单，日志分析很清晰，可以看下图。iislog能清晰的看到蜘蛛来访时间、蜘蛛类型、蜘蛛IP、链接方式、服务器返回的代码、最后是蜘蛛访问网站的地址，一目了然。

分享两款iis网站日志分析工具光年日志分析工具和iislog日志分析工具

光年日志分析工具在分析的数据上做得更加细化，概要分析处可以看到各搜索引擎蜘蛛来访次数、总停留时间(小时) 、总抓取量以及占比的百分比。还能看到蜘蛛抓取了你网站的哪些目录以及页面，并且给了各搜索引擎蜘蛛IP抓取量一个排行，可以让你对来访蜘蛛更加了解，方便针对各搜索引擎做seo调整。

光年日志分析教程：www.seowhy.com/course/65

光年日志分析工具里面的关键词分析比较花瓶，本人经常使用都是没有数据的，是个摆设。最后一项状态码分析很好用，也是我使用光年日志分析工具最主要的原因，这里可以看到用户以及蜘蛛访问网站后返回的状态码以及对应页面，在这里可以很清晰的了解到蜘蛛和用户在访问你网站时候的体验程度，比如哪些页面或者文件打不开，返回了404状态码的对应页面和文件都会记录在这里。

分享两款iis网站日志分析工具光年日志分析工具和iislog日志分析工具

本人喜欢将以上两款工具结合起来使用，这样分析出来的数据更加精准

光年日志分析的下载和安装

下载地址，如下：

xmkaifa.cn/gnanalyzer.rar

解压之后，就可以直接点击exe就可以打开，因为官方并没有给它提供安装包。

同时可以右键点击发送快捷方式到桌面，这样就不需要每次都去文件里边进行打开了。

软件的主界面：

另外我还提供一款软件是爱站seo工具包，这个其实比光年日志分析工具是更好用的。

SEO中经常碰到的状态码

日志中的HTTP状态码都代表什么？

做SEO时，我们经常会在日志上看到类似这样的代码：

61.135.166.232 - - [31/Dec/2007:02:30:11 +0800] "GET /category21.html HTTP/1.1" 200 10968 "-" "Baiduspider+(+www.baidu.com/search/spid…)"

66.249.70.172 - - [31/Dec/2007:03:36:10 +0800] "GET /32_10_zh.html HTTP/1.1" 200 18395 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +www.google.com/bot.html)"

这里面需要知道的，就是那个奇怪的数字“200”（另外那个数字表示抓取的文件大小）。
“200”就是HTTP状态码。

SEO过程中最常见的HTTP状态码有：

200 - 服务器成功返回网页
404 - 请求的网页不存在
503 - 服务器超时

其他经常碰到的HTTP状态码列表如下：

HTTP状态码摘要说明

成功2×× 成功处理了请求的状态码。
200 服务器已成功处理了请求并提供了请求的网页。
204 服务器成功处理了请求，但没有返回任何内容。
重定向3×× 每次请求中使用重定向不要超过 5 次。
301 请求的网页已永久移动到新位置。当URLs发生变化时，使用301代码。搜索引擎索引中保存新的URL。
302 请求的网页临时移动到新位置。搜索引擎索引中保存原来的URL。
304 如果网页自请求者上次请求后没有更新，则用304代码告诉搜索引擎机器人，可节省带宽和开销。
客户端错误4×× 表示请求可能出错，妨碍了服务器的处理。
400 服务器不理解请求的语法。
403 服务器拒绝请求。
404 服务器找不到请求的网页。服务器上不存在的网页经常会返回此代码。
410 请求的资源永久删除后，服务器返回此响应。该代码与 404（未找到）代码相似，但在资源以前存在而现在不存在的情况下，有时用来替代404 代码。如果资源已永久删除，应当使用 301 指定资源的新位置。
服务器错误5×× 表示服务器在处理请求时发生内部错误。这些错误可能是服务器本身的错误，而不是请求出错。
500 服务器遇到错误，无法完成请求。
503 服务器目前无法使用（由于超载或停机维护）。通常，这只是暂时状态。

网站日志分析能反馈什么？

一个seo工作人员，特别是那些大型网站的seo人员来说，能独立分析网站日志是一种必不可少的技能，因为大型的网站栏目结构以及页面非常的繁杂，蜘蛛也是少不了会频繁访问，从蜘蛛给网站留下的一些痕迹上面能够掌控网站不少的信息，这对网站优化运营是一种非常必要的参考，前面小星星的文章里面也对蜘蛛状态码也进行了初步的介绍，这篇文章也对网站日志能读取到的信息作出了总结：

分析网站日志能获取到的信息总结：

一、可以看出网站页面有哪些搜索引擎的蜘蛛抓取

从网站日志里面可以看出网站被哪些蜘蛛所抓取，每个类型的蜘蛛也都属于自己的特殊标头，各大搜索引擎的标头特征如下所示：

百度蜘蛛:baiduspider

谷歌蜘蛛：Googlebot

360蜘蛛：360Spider

SOSO蜘蛛：Sosospider

雅虎蜘蛛：“Yahoo! Slurp China”或者Yahoo!

有道蜘蛛：YoudaoBot，YodaoBot

搜狗蜘蛛：Sogou News Spider

MSN蜘蛛：msnbot，msnbot-media

必应蜘蛛：bingbot

提醒：网站的日志里面也有可能会出现一些其它私人开发的抓取器所抓取，由此我们可能会发现一些奇怪的蜘蛛抓取痕迹。另外百度也有属于自己的匿名蜘蛛，我们也要注意区分注意。

二、可以统计网站目录蜘蛛抓取的总量

通过抓取总量的分析可以对比出网站哪个目录更受搜索引擎的关注，一般来说蜘蛛抓取越频繁的目录，site网站此目录的排名会相对靠前，我们也可通过目录的蜘蛛访问量来适当调整目录的结构，对于那些抓取压力较大但是不怎么重要的目录也可适当缩减链接入口，以免阻碍给其它重要目录的抓取。

三、网站页面的抓取。

可以从中看出哪个页面蜘蛛是否抓取了一些没有被收录价值的页面，或者老是重复的抓取了这些页面等，那么同理要先采取措施予以频闭，要么是运用到nofollow标签，要么是robots文件等，这样就会降低因为搜索引擎抓取到大量相关性低或者质量度差的页面而影响到页面的权重传递这样的不利影响。

四、蜘蛛平均抓取页面的次数、页面平均停留时间以及抓取的数量。

（1）、平均每次抓取页面数=总抓取量/访问次数

（2）、单页抓取停留时间

（3）、页面平均停留时间=总停留时间/访问次数

从以上的分析能够很清晰的看出蜘蛛是否频繁关注自己的网站，而且抓取的页面越多，深度越足也能反映出网站的活跃度高，而且在停留的时间上面也能初步看出网站的页面和文章是否新颖或者原创，这是页面质量度的一个体现。

五、可以一览蜘蛛方面各网页的状态码

状态码是网站日志里面最重要的一个方面了，这是蜘蛛对于网站页面状态最直观的反映，从这些状态码中可以看出更多详细的信息。

六、了解网站日志蜘蛛的来访时间

对网站日常日志分析总结中，可以很直观的看出每天具体是哪个时间段是蜘蛛访问的高峰时期，我们为了迎合搜索引擎，也可以相应调整网站的更新时间，争取在蜘蛛活跃度最高的时间段更新文章，这样对自己网站的收录会有非常大的帮助，甚至还有可能达到秒收的效果！

总之，分析网站日志是一个非常有意义的技能，特别是网站建立的初期和运营遇到状况的时候，分析日志这个方面就更是尤为重要，当然再碰到信息量特别大的时候，单手动看效果是不好的，这里推荐光年日志分析工具，功能非常强大，基本能很好的满足一般网站的分析需求

网站日志分析

摘要