Scrapy 小小试验遇到的4个问题一. Forbidden by robots.txt 而 scrapy 默认遵守 r

一. Forbidden by robots.txt

查了一下 robot.txt 发现有一个 robot 协议，这个协议中规定了本站点允许爬虫机器抓取哪些网页或文件，可以访问这个链接 www.baidu.com/robots.txt 查看权限

User-agent: Baiduspider

Disallow: /baidu

而 scrapy 默认遵守 robot 协议，我们只要不遵守就可以了。

关闭 scrapy 自带 ROBOTSTXT_OBEY 功能，在 setting 找到这个变量，设置为 False 即可。

extract()：序列化该节点为unicode字符串并返回list

filename=open('test.json','w')

改成 wb，以二进制写模式打开就可以了

Python版本：3.6.3
macos：10.13.5

pip3 install Scrapy —user

显示安装成功，然后执行 scrapy -v 报错信息如下：

bash: scrapy: command not found

find / -name scrapy 结果如图

ln -s /Users/macbook/Library/Python/3.6/bin/scrapy /usr/local/bin/scrapy

再执行 scrapy 命令就可以了