爬虫

爬虫学习

暂无订阅共24篇文章创建于2022-03-20

行百里者半九十 —— scrapy 框架关于下载中间件的补充

@TOC 需求在《行百里者半九十 —— scrapy 框架（6）》一文中我们介绍了下载中间件的作用，并演示了其中拦截响应的代码实现。现在我们来试着实现拦截请求的代码实现，也就是UA池和代理池的实现

4年前
183
点赞
评论

行百里者半九十 —— scrapy 框架（7）

@[TOC](CrawlSpider 实现全站数据爬取) CrawlSpider 介绍全站数据爬取的方式 CrawlSpider（Spider 的一个子类）的使用需求使用 CrawlSpider

4年前
162
点赞
评论

行百里者半九十 —— scrapy 框架（6）

@TOC scrapy 五大核心组件引擎（Scrapy）用来处理整个系统的数据流量，触发事务（框架核心）调度器（Scheduler）用来接受引擎发送的请求，压入队列中，并在引擎再次请求的时候返

4年前
232
点赞
评论

行百里者半九十 —— scrapy 框架（5）

@TOC 需求爬取站长素材中的图片图片数据爬取之ImagesPipeline scrapy爬取图片 xpath 解析出图片 src 的属性值。单独对图片地址发起请求获取图片二进制类型的数据。 Im

4年前
147
点赞
评论

行百里者半九十 —— scrapy 框架（3）

@TOC 目的爬取校花网中全部照片的名称，以生活照为例。思路分析如果不用 scrapy 框架实现全站数据爬取其实是简单的，只要找到网址的规律一直遍历就行。那么如果要用scrapy框架实现全站数据

4年前
112
点赞
评论

行百里者半九十——scrapy 框架（2）

@[TOC](scrapy 持久化存储（以糗事百科为例）) 前言不知道大家还记得爬虫万能的三步骤吗？没错，那就是指定URL，发送请求，持久化保存数据。我们前面在 scrapy框架（1）中简单了解了

4年前
144
点赞
评论

行百里者半九十——scrapy 框架（1）

@[TOC](scrapy 框架初识) 安装如果没记错，python 3.6 及以上版本可以直接用 pip install scrapy.但具体是从哪个版本开始可以这样我也不是很清楚，因为我使用的

4年前
221
点赞
评论

工欲善其事，必先利其器 —— selenium 模块（6）

@[TOC](selenium 综合应用（2）) 需求模拟登录 12306 注意：目的在于验证码的识别。因为除了点击，12306在登录后还存在滑块验证码。本篇文章并不涉及滑块验证码。代码分析首

4年前
164
点赞
评论

工欲善其事，必先利其器 —— selenium 模块（5）

@[TOC](selenium 综合应用（1）) 需求模拟浏览器，从京东首页开始输入关键词，爬取两页商品的名称、价格和一页评价（只包括文字，不包括视频）。评价包括用户的名称和星数。网页分析首先定

4年前
186
点赞
评论

工欲善其事，必先利其器 —— selenium 模块（4）

@[TOC](selenium 模块（4）) 几句题外话因为准备期末考试的缘故，有一段时间没有写博文了，今天认真一看竟然已经有一个月没有写了。虽然我的博文只有零零总总几人看过，但期间有位大佬 “催更

4年前
142
点赞
评论

工欲善其事，必先利其器 —— selenium 模块（3）

@[TOC](selenium 模块自动化操作（2）（以京东为例）) 页面滚动我们首先打开京东的页面，随便输入一个商品名称会看到如下的页面。我们可以先数一数页面有多少商品。如果我们使用滚轮滚动，

4年前
237
点赞
评论

工欲善其事，必先利其器 —— selenium 模块（2）

@[TOC](selenium 自动化操作（1）（以百度翻译为例）) 我们运行程序发现我们使用 selenium 请求到的网页和我们自己打开的网页有一点不同。使用 selenium 请求到的网页多了

4年前
178
点赞
评论

工欲善其事，必先利其器 —— selenium模块（1）

@[TOC](selenium 模块) 简单介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质

4年前
99
点赞
评论

工欲善其事，必先利其器——协程（3）

@[TOC](使用 aiohttp 完成异步爬取图片) 代码演示看一下运行结果 @[TOC](使用 aiohttp 完成异步爬取图片) # 代码演示

4年前
95
点赞
评论

工欲善其事，必先利其器——协程（2）

resquests 协程的尝试前面我们学习了协程的简单的语法，以及写了一段代码实现了简单的协程。而我们的目的是为了实现异步爬虫。所以我们就用 requests 模块尝试一下协程 flask服务首先

4年前
118
点赞
评论

工欲善其事，必先利其器——协程（1）

什么是协程简单来说，协程就是同时开启多个任务，但一次只顺序执行一个。等到所执行的任务遭遇阻塞，就切换到下一个任务继续执行，以期节省下阻塞所占用的时间。简单说明简单的代码示例我们可以看看运行的结

4年前
134
点赞
评论

工欲善其事，必先利其器——识别验证码（3）

爬取人人网用户个人页面如图的页面是我们这次需要爬取的页面，即人人网的个人页面一开始我们的想法是利用爬虫模拟登录，然后再获取我们需要爬取的网页页面。想到这里，我们就先来写代码吧。然后我们看看运行

4年前
233
点赞
评论

工欲善其事，必先利其器——识别验证码（2）

模拟登录人人网前面我们学习了使用第三方平台实现验证码的识别，那现在就让我们来用验证码的识别实现人人网的登录。首先我们先到人人网的登录页面去踩点。

4年前
106
点赞
评论

工欲善其事，必先利其器——识别验证码（1）

验证码识别我们使用爬虫时很有可能需要登录，而现在的平台登陆时都需要验证码才能完成登录，所以我们使用爬虫模拟登录时验证码是必须要跨过的坎。一般情况下

4年前
362
点赞
评论