首先我们还是要掏出我们不变的秘诀:
爬虫四步:
1、明确目标url
2、发起请求 获取响应
3、响应里面取出数据
4、存储数据
一、明确目标url
打开链家的网页 这里用北京的二手房为例bj.lianjia.com/ershoufang/ 因为我们要获取多页数据所以我们点击f12然后去请求第二页
用doc筛选发现了我们的目标响应点击进去后
发现了pg这个参数很像我们翻页的参数,所以我们大胆尝试bj.lianjia.com/ershoufang/…
看看我们能不能拿到51页的数据。
发现成功了
所以我们的目标url确定了翻页参数为pg
掏出我们祖上传下的传家模板写出我们的翻页并且看看我们能不能获取响应
发现成功了!
那我们第一步和第二步已经成功了!
那我们开始取数据吧(这里用xpath简单方便)
首先我们定位第一个房屋信息
写出它的xpath以后循环它并且在这个基础上进行进一步的筛选
发现我们已经成功定位到了这个数据那我们进一步去取数据吧!(这里我们取详情页的url,房名,价格,还有简介)
打印一下他们发现可以取到!!
ヾ(✿゚▽゚)ノ那我们开始最后一步存数据啦!!!
再掏出我们的存Excel的模板代码!
改一个表头然后我们运行一下吧
打开我们的Excel表格看看吧
好耶成功啦!!!