开始搬砖,最近网站没有遇到什么新难度的问题就随便写一点吧,今天采集39健康网又遇到了gb2312。事情是这样的。
这种网站就比较难搞没有清晰的目录页,这样采集数据的话很保证数据完整性。经过一番勘探找到了这里
嗯,高低也算是一个目录页了,盲猜一下这个网站因该是老版的目录页,新版的首页吧。
1.先抓包
有点意外,居然乱码了,看一下编码
2.写过html就比较了解content用来定义这个页面的编码,又是gb2312(不知咋的有时候突然碰到一人或事之后接下来的几天总会遇到相关的)好这里不用再参数中的gb2312编码。这里先不管继续向下走模拟请求
这里不需要cookies,respone乱码
3.先使用resquests自动识别一下编码(
response.encoding = response.apparent_encoding)
4.ok续集向下走,xpath到所有的文章地址
5.详情页采集
先打印源码ok没问题
6.+落库,翻页,请求最大时长
7.走两步