SEO死链接常见问题

287 阅读9分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 15 天,点击查看活动详情

百度验证网站

百度账号登录进去---> 用户中心 ---> 根据操作一步一步操作呗

可以通过这个网站 去进行相关的网站链接进行验证,地址如下:

ziyuan.baidu.com/crawltools/…

流量与关键词

百度蜘蛛全面解析

什么是Baiduspider?

A:Baiduspider也叫百度蜘蛛,是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到网站相关内容。

Q:如何才能识别当前抓取是正确的百度蜘蛛?

A:有两个方式可以判断百度蜘蛛。

方式一:查看UA信息

如果UA信息不对,可以直接判断为非百度搜索的蜘蛛。目前UA分为移动、PC 、和小程序三个应用场景,这三个渠道UA分别如下:

移动UA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+www.baidu.com/search/spid…)

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+www.baidu.com/search/spid…)

PC UA:

Mozilla/5.0 (compatible; Baiduspider/2.0; +www.baidu.com/search/spid…)

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +www.baidu.com/search/spid…)

小程序UA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +www.baidu.com/search/spid…)

方式二:双向DNS解析认证

第一步:DNS反查IP,开发者通过对日志中访问服务器的 IP地址运行反向DNS查找,判断某只spider是否来自百度搜索引擎,Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即为冒充。

根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

在linux 平台下,可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

在windows平台或者IBM OS/2 平台下,可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取 。

在mac os 平台下,可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。

第二步:对域名运行正向 DNS 查找。 对第1步中通过命令检索到的域名运行正向DNS查找,验证该域名与您日志中访问服务器的原始IP地址是否一致,IP地址一致可确认spider来自百度搜索引擎,IP地址不一致即为冒充。

详情可参考文档:《轻松两步,教你快速识别百度蜘蛛》

Q:百度蜘蛛会一直抓我的网站吗?

A:一般会的,若网站持续生产新资源、更新内容等,蜘蛛会持续抓取的。需要提醒的是,若网站需要百度蜘蛛抓取一定不要做任何封禁哦。(封禁相关参考下文内容)

此外,您也可以检查网站访问日志,及时判断正确的百度蜘蛛,以防止有人恶意冒充百度蜘蛛来频繁抓取您的网站。

Q:百度蜘蛛频繁光顾网站,导致网站服务器压力大,怎么办?

A:若发现百度蜘蛛频繁抓取,可能是因为

① 网站存在新生产资源、更新内容待抓取更新;

② 可能存在恶意冒充百度蜘蛛,可以通过上文Q2 “如何识别正常百度蜘蛛” 的方法排查问题;

若百度蜘蛛抓取频次过高,造成网站服务异常,可以通过搜索资源平台-【抓取频次】工具调整频次。

【封禁篇】

Q:网站的部分资源不希望被百度蜘蛛访问,该怎么做?

A:百度蜘蛛遵守互联网robots协议。站长可以更新robots.txt文件,文件中明确不希望百度蜘蛛访问资源或目录等,并及时通过搜索资源平台 -【 R obots 】工具,提交robots文件。

需要注意,robots文件更新和提交后,搜索引擎需要逐渐完成更新,所以百度蜘蛛不是立即停止抓取网页,请耐心等待。

Q:网站封禁百度蜘蛛,可能会带来哪些影响?

A:网站资源优质,也没有其他违规问题,但是存在以下情况

①没有查询到百度蜘蛛任何抓取记录,

②在百度搜索中没有得到收录和展现

③网站/目录存在流量异常下降的情况,

④在搜索结果中的摘要展现为 “存在robots封禁”字样。

若发现以上情况,可以先自查是否存在封禁百度蜘蛛的问题,及时解除封禁(解除封禁参考QA7),等待恢复。

Q:如何解除封禁百度蜘蛛?

A:常见的封禁行为包括robots封禁、封禁百度UA、封禁百度IP这三种,可以逐一排查解决:

(1) 查看robots.txt文件,是否存在封禁记录。(一般robots.txt文件放置在网站根目录下。

(2)robots文件无异常,进一步排查是否存在封禁百度 UA 情况

方案一:执行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +www.baidu.com/search/spid…)' --request GET 'xxxxxxx'

注:正常返回码是 200,其他情况为异常。

方案二:变更浏览器UA验证;

(3)以上验证均无异常,最后进一步排查是否存在IP级别的封禁;

常见的IP封禁,源自网站的防火墙系统配置,需要查看防火墙配置系统后台,检查是否存在百度蜘蛛的IP级别封禁措施。

死链

死链都有哪些类型?

A:死链一般是指页面已经无效,无法对用户提供任何有价值信息的页面。包括协议死链和内容死链

(1)协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如403、404、503状态等。

(2)内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。内容死链,服务器端返回HTTP状态码200,无法设置为404。

Q:死链是如何产生的?

A:死链可能存在以下来源:

(1)网站内部主动或被动添加了错误内容链接,发现后需要及时做404处理,如网站被恶意添加大量黄反内容等。

(2)网站服务器、空间或程序问题,导致网站短暂无法访问,如服务器不稳定

(3)外部链接错误,用户或者站长在站外发布了错误URL。

(4)爬虫提取不完整的URL,个别爬虫在提取页面URL时,因为URL中有不规则字符,或者URL与后边的文字链接起来,导致URL失效。

(5)网站改版,网站改版后,之前的老域名页面直接删除,导致了大量的死链接。

Q:为什么要及时处理死链 ?不处理是否有影响?

A:(1)死链是页面无效,不能给浏览用户提供任何价值,但增加网站的管理成本。

(2)当网站死链数据累积过多时,且被展示到搜索结果页中时,对网站本身的访问体验和造成负面影响

(3)百度蜘蛛会定期检测网站页面内容价值,若存在大量死链,可能会影响网站整体评价,从而不能更好的进行网站抓取和展现。

Q:如何发现网站中存在的死链接?

A:(1)搜索资源平台工具抓取异常工具ziyuan.baidu.com/crawl/index】可以查看最近产生的死链,且支持导出功能。

(2)参考爬虫软件:此类工具可以爬取全站所有链接并分析页面状态,分析完成后,支持导出功能,提取死链接即可。

教你如何处理死链页面

Q:如何有效处理死链?

A:死链资源的更新,不同网站可能会存在不同周期。为保障及时更新死链,可以通过资源平台-【死链提交】工具,进行提交。

Q:如何使用平台工具处理死链?

A:使用【死链提交】工具有效的提交死链,需要以下步骤:

第一步:处理的页面设置404页面

将需处理的页面设置404页面,生成死链文件整理被黑、无效等需要被删除的资源,页面设置404,一定是404页面

将需提交的404页面列表制作成一个待提交的文件,制作方法请参阅帮助文档

(与sitemap格式及制作方法一致)

第二步:将文件放置在网站根目录下

将死链文件放置在网站根目录下,比如您的网站为example.com,您已制作了一个silian_ example.xml死链文件,则将silian_example.xml上传至网站根目录即example.com/silian_ example.xml。

第三步:登录百度搜索资源平台

登录搜索资源平台,找到【死链提交】工具。(若未站点验证,需要先完成站点验证,之后使用工具提交文件)。

第四步:提交死链数据

(1)【资源提交】- 【死链提交】工具中提交死链文件。

(2)提交完成后,关注死链文件处理状态。

使用【死链提交】工具的注意事项

【死链提交】工具可以识别403、500等无效数据吗?

A:不可以,【死链提交】工具仅识别404, 请一定设置为404;若存在非404资源,可能会影响整个文件生效情况。

注:请勿使用该工具提交非死链内容,避免影响正常页面的搜索展现效果。

【死链提交】工具是否可以删除目录下所有链接(如:*.a.example.com)?

A:不支持目录级提交,只能提交具体需要删除的链接 。

工具支持索引型sitemap文件吗?

A:不支持,请勿提交索引型文件。

提交数据的生效周期是什么?

A:死链提交后一般生效周期为1-2周