robots.txtrobots.txt(也称为爬虫协议、爬虫规则、机器人协议等)是放置在网站根目录中的.txt 文件，

robots.txt(也称为爬虫协议、爬虫规则、机器人协议等)是放置在网站根目录中的.txt 文件，是搜索引擎蜘蛛程序默认访问网站第一要访问的文件，如果搜索引擎蜘蛛程序找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。robots.txt 将告诉搜索引擎蜘蛛程序网站哪些页面时可以访问，哪些不可以。Robots 协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

robots.txt 必须放置在一个站点的根目录下，而且文件名必须全部小写。

robots.txt 写法:

User-agent: * (定义所有搜索引擎)
User-agent: Googlebot (定义谷歌，只允许谷歌蜘蛛爬取)
User-agent: Baiduspider (定义百度，只允许百度蜘蛛爬取)

不同的搜索引擎的搜索机器人有不同的名称，谷歌：Googlebot、百度：Baiduspider、MSN：MSNbot、Yahoo：Slurp

Disallow: / (禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)
Disallow: /admin (禁止蜘蛛爬取admin目录)
Disallow: /abc.html (禁止蜘蛛爬去abc.html页面)
Disallow: /help.html (禁止蜘蛛爬去help.html页面)

Allow: /admin/test/ (允许蜘蛛爬取admin下的test目录)
Allow: /admin/abc.html (允许蜘蛛爬去admin目录中的abc.html页面)

$ 通配符：匹配URL结尾的字符

* 通配符：匹配0个或多个任意字符

使用 robots.txt 可以来控制某些内容不被爬虫收录，保证网站敏感数据和用户信息不被侵犯。