页面收录的问题

88 阅读4分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 12 天,点击查看活动详情

被收录的是动态页面解决办法

不带参 官网(正身) 和带参官网(假官网) 的收录对比

举个栗子:

www.baidu.com 这个是官网 (没有参数)

www.baidu.com?a=1

www.baidu.com?a=2

以上两个是代餐的官网。

当我们在百度site 查看收录情况的时候,查到的都是代餐的。

通过在百度site:官网 发现被收录是 官网?参数这样的形式 被收录。这样的收录方式只会导致我们官网实际降权。也就是说官网?带参被收录并且加权重,那么官网本身是指没有参数的官网地址,则就被降权了。而且带参数被收录的网站不止一个,而是有很多个,那么官网权重就被这些带参的官网给分权了,导致官网权重很低。

解决方法:

1,修改robots.txt 中 禁止动态访问被抓取 也就是 ? 号代餐的 搜索引擎就不抓取

robots.txt

  robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。

robots的文件内容格式:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.wangxiaokai.vip/sitemap.xml

这个按钮表示的是 不能用谷歌访问 /nogoooglebot/ 除此之外,其他都可以正常访问, 且有 网站底图引导。

还有一些格式如下:

1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。
2. 禁止所有SE收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
3. 禁止某个SE收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE收录本站:
User-agent: *
Disallow: /

robots.txt的作用:

1、引导搜索引擎蜘蛛抓取指定栏目或内容; 
2、网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接;   
3、屏蔽死链接、404错误页面;  
4、屏蔽无内容、无价值页面;  
5、屏蔽重复页面,如评论页、搜索结果页; 
6、屏蔽任何不想被收录的页面;  
7、引导蜘蛛抓取网站地图;

语法如下

1、User-agent:(定义搜索引擎)  

 示例:    User-agent: *(定义所有搜索引擎)    User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)    User-agent: Baiduspider  (定义百度,只允许百度蜘蛛爬取)    不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。  

   

2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)  

 示例:     Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)     Disallow: /admin (禁止蜘蛛爬取admin目录)     Disallow: /abc.html (禁止蜘蛛爬去abc.html页面)     Disallow: /help.html (禁止蜘蛛爬去help.html页面)  

3、Allow:(用来定义允许蜘蛛爬取的页面或子目录)

  示例:     Allow: /admin/test/(允许蜘蛛爬取admin下的test目录)     Allow: /admin/abc.html(允许蜘蛛爬去admin目录中的abc.html页面)

案例:

禁止访问,例如对三个目录进行限制则是如下代码,禁止所有的搜索引擎访问 这三个目录:

User-agent: * 
Disallow: /admin/
Disallow: /tmp/ 
Disallow: /abc/ 

允许所有的搜索引擎禁止访问admin目录,但是允许访问admin下边的seo目录,其他目录都可以正常访问。

User-agent: * 
Allow: /admin/seo/
Disallow: /admin/ 

禁止抓取/abc/目录下所有以.html后缀的url,(包含子目录)。

User-agent: *
Disallow: /abc/.htm$ 

禁止抓取网站中所有的动态页面,屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。但是伪静态这些就不能被屏蔽掉:

User-agent: * 
Disallow: /*?*       

禁止百度抓取网站所有的图片

User-agent: Baiduspider 
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$ 
Disallow: /*.png$ 
Disallow: /*.bmp$    

robots.txt的注意事项

1,robots.txt 文件必须放在网站的根目录,不可以放在子目录
2、robots.txt 文件名命名必须小写,记得在robot面加“s”
3User-agent、AllowDisallow的 “:” 后面有一个字符的空格
4、路径后面加斜杠“/” 和不加斜杠的是有区别的:
 Disallow: /help                禁止蜘蛛访问 /help.html、/helpabc.html、/help/index.html       Disallow: /help/         禁止蜘蛛访问 /help/index.html
5,DisallowAllow行的顺序是有意义的:  
举例说明:允许蜘蛛访问 /admin/ 目录下的seo文件夹
User-agent: *     Allow: /admin/seo/     Disallow: /admin/
如果AllowDisallow 的顺序调换一下:  
User-agent: *     Disallow: /admin/     Allow: /admin/seo/ 
蜘蛛就无法访问到 /admin/ 目录下的 seo 文件夹,因为第一个 Disallow: /admin/ 已匹配成功。

百度收录准确查询

1,site:网址

可以查询到所有被收录的url。