获得徽章 0
- #每天一个知识点# 请问采集数据是自己部署ip池好,还是用亮数据这样的三方服务好,我比较担心自己部署不够稳定,所以用亮数据的服务,还有专门的网页解锁功能,相对比较省心,但就是成本高些。评论1
- #挑战每日一条沸点# 最近在学习爬虫,发现python requests+bs4是比较流行的爬虫组合,基本能搞定90%以上的静态网页,但是对于验证码、请求头校验、用户行为分析、IP频率限制这些反爬机制,很难去处理,而且对于动态网页,requests也很难去处理。
我发现可以用requests接入亮数据的数据采集api,既可以自由的切换住宅ip池,模拟真人访问,还可以识别和解锁各式各样的人机验证,对于动态加载的网页也可以直接处理并提取机构化的json数据,蛮方便的。展开评论1