开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 15 天,点击查看活动详情
百度验证网站
百度账号登录进去---> 用户中心 ---> 根据操作一步一步操作呗
可以通过这个网站 去进行相关的网站链接进行验证,地址如下:
流量与关键词
百度蜘蛛全面解析
什么是Baiduspider?
A:Baiduspider也叫百度蜘蛛,是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到网站相关内容。
Q:如何才能识别当前抓取是正确的百度蜘蛛?
A:有两个方式可以判断百度蜘蛛。
方式一:查看UA信息
如果UA信息不对,可以直接判断为非百度搜索的蜘蛛。目前UA分为移动、PC 、和小程序三个应用场景,这三个渠道UA分别如下:
移动UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+www.baidu.com/search/spid…)
或
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+www.baidu.com/search/spid…)
PC UA:
Mozilla/5.0 (compatible; Baiduspider/2.0; +www.baidu.com/search/spid…)
或
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +www.baidu.com/search/spid…)
小程序UA:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +www.baidu.com/search/spid…)
方式二:双向DNS解析认证
第一步:DNS反查IP,开发者通过对日志中访问服务器的 IP地址运行反向DNS查找,判断某只spider是否来自百度搜索引擎,Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即为冒充。
根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
①在linux 平台下,可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
②在windows平台或者IBM OS/2 平台下,可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取 。
③在mac os 平台下,可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。
第二步:对域名运行正向 DNS 查找。 对第1步中通过命令检索到的域名运行正向DNS查找,验证该域名与您日志中访问服务器的原始IP地址是否一致,IP地址一致可确认spider来自百度搜索引擎,IP地址不一致即为冒充。
详情可参考文档:《轻松两步,教你快速识别百度蜘蛛》
Q:百度蜘蛛会一直抓我的网站吗?
A:一般会的,若网站持续生产新资源、更新内容等,蜘蛛会持续抓取的。需要提醒的是,若网站需要百度蜘蛛抓取一定不要做任何封禁哦。(封禁相关参考下文内容)
此外,您也可以检查网站访问日志,及时判断正确的百度蜘蛛,以防止有人恶意冒充百度蜘蛛来频繁抓取您的网站。
Q:百度蜘蛛频繁光顾网站,导致网站服务器压力大,怎么办?
A:若发现百度蜘蛛频繁抓取,可能是因为
① 网站存在新生产资源、更新内容待抓取更新;
② 可能存在恶意冒充百度蜘蛛,可以通过上文Q2 “如何识别正常百度蜘蛛” 的方法排查问题;
若百度蜘蛛抓取频次过高,造成网站服务异常,可以通过搜索资源平台-【抓取频次】工具调整频次。
【封禁篇】
Q:网站的部分资源不希望被百度蜘蛛访问,该怎么做?
A:百度蜘蛛遵守互联网robots协议。站长可以更新robots.txt文件,文件中明确不希望百度蜘蛛访问资源或目录等,并及时通过搜索资源平台 -【 R obots 】工具,提交robots文件。
需要注意,robots文件更新和提交后,搜索引擎需要逐渐完成更新,所以百度蜘蛛不是立即停止抓取网页,请耐心等待。
Q:网站封禁百度蜘蛛,可能会带来哪些影响?
A:网站资源优质,也没有其他违规问题,但是存在以下情况
①没有查询到百度蜘蛛任何抓取记录,
②在百度搜索中没有得到收录和展现,
③网站/目录存在流量异常下降的情况,
④在搜索结果中的摘要展现为 “存在robots封禁”字样。
若发现以上情况,可以先自查是否存在封禁百度蜘蛛的问题,及时解除封禁(解除封禁参考QA7),等待恢复。
Q:如何解除封禁百度蜘蛛?
A:常见的封禁行为包括robots封禁、封禁百度UA、封禁百度IP这三种,可以逐一排查解决:
(1) 查看robots.txt文件,是否存在封禁记录。(一般robots.txt文件放置在网站根目录下。
(2)robots文件无异常,进一步排查是否存在封禁百度 UA 情况;
方案一:执行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +www.baidu.com/search/spid…)' --request GET 'xxxxxxx'
注:正常返回码是 200,其他情况为异常。
方案二:变更浏览器UA验证;
(3)以上验证均无异常,最后进一步排查是否存在IP级别的封禁;
常见的IP封禁,源自网站的防火墙系统配置,需要查看防火墙配置系统后台,检查是否存在百度蜘蛛的IP级别封禁措施。
死链
死链都有哪些类型?
A:死链一般是指页面已经无效,无法对用户提供任何有价值信息的页面。包括协议死链和内容死链。
(1)协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如403、404、503状态等。
(2)内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。内容死链,服务器端返回HTTP状态码200,无法设置为404。
Q:死链是如何产生的?
A:死链可能存在以下来源:
(1)网站内部主动或被动添加了错误内容链接,发现后需要及时做404处理,如网站被恶意添加大量黄反内容等。
(2)网站服务器、空间或程序问题,导致网站短暂无法访问,如服务器不稳定。
(3)外部链接错误,用户或者站长在站外发布了错误URL。
(4)爬虫提取不完整的URL,个别爬虫在提取页面URL时,因为URL中有不规则字符,或者URL与后边的文字链接起来,导致URL失效。
(5)网站改版,网站改版后,之前的老域名页面直接删除,导致了大量的死链接。
Q:为什么要及时处理死链 ?不处理是否有影响?
A:(1)死链是页面无效,不能给浏览用户提供任何价值,但增加网站的管理成本。
(2)当网站死链数据累积过多时,且被展示到搜索结果页中时,对网站本身的访问体验和造成负面影响。
(3)百度蜘蛛会定期检测网站页面内容价值,若存在大量死链,可能会影响网站整体评价,从而不能更好的进行网站抓取和展现。
Q:如何发现网站中存在的死链接?
A:(1)搜索资源平台工具:抓取异常工具【ziyuan.baidu.com/crawl/index】可以查看最近产生的死链,且支持导出功能。
(2)参考爬虫软件:此类工具可以爬取全站所有链接并分析页面状态,分析完成后,支持导出功能,提取死链接即可。
教你如何处理死链页面
Q:如何有效处理死链?
A:死链资源的更新,不同网站可能会存在不同周期。为保障及时更新死链,可以通过资源平台-【死链提交】工具,进行提交。
Q:如何使用平台工具处理死链?
A:使用【死链提交】工具有效的提交死链,需要以下步骤:
第一步:处理的页面设置404页面
将需处理的页面设置404页面,生成死链文件整理被黑、无效等需要被删除的资源,页面设置404,一定是404页面。
将需提交的404页面列表制作成一个待提交的文件,制作方法请参阅帮助文档:
(与sitemap格式及制作方法一致)
第二步:将文件放置在网站根目录下
将死链文件放置在网站根目录下,比如您的网站为example.com,您已制作了一个silian_ example.xml死链文件,则将silian_example.xml上传至网站根目录即example.com/silian_ example.xml。
第三步:登录百度搜索资源平台
登录搜索资源平台,找到【死链提交】工具。(若未站点验证,需要先完成站点验证,之后使用工具提交文件)。
第四步:提交死链数据
(1)【资源提交】- 【死链提交】工具中提交死链文件。
(2)提交完成后,关注死链文件处理状态。
使用【死链提交】工具的注意事项
【死链提交】工具可以识别403、500等无效数据吗?
A:不可以,【死链提交】工具仅识别404, 请一定设置为404;若存在非404资源,可能会影响整个文件生效情况。
注:请勿使用该工具提交非死链内容,避免影响正常页面的搜索展现效果。
【死链提交】工具是否可以删除目录下所有链接(如:*.a.example.com)?
A:不支持目录级提交,只能提交具体需要删除的链接 。
工具支持索引型sitemap文件吗?
A:不支持,请勿提交索引型文件。
提交数据的生效周期是什么?
A:死链提交后一般生效周期为1-2周。